亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)音情感識(shí)別研究綜述

        2021-11-17 07:19:46張會(huì)云黃鶴鳴
        計(jì)算機(jī)仿真 2021年8期
        關(guān)鍵詞:模態(tài)數(shù)據(jù)庫(kù)特征

        張會(huì)云,黃鶴鳴*,李 偉,康 杰

        (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        1 引言

        隨著語(yǔ)音識(shí)別技術(shù)的迅速發(fā)展,以計(jì)算機(jī)、手機(jī)、平板等為載體的人工智能研究日新月異。各種人機(jī)交互不再局限于識(shí)別特定說(shuō)話人語(yǔ)音中的單一音素或語(yǔ)句,如何識(shí)別語(yǔ)音中的情感已成為語(yǔ)音識(shí)別領(lǐng)域的新興研究方向。語(yǔ)音不僅包含說(shuō)話人所要表達(dá)的語(yǔ)義信息,也蘊(yùn)含說(shuō)話人的情感狀態(tài)。對(duì)語(yǔ)音情感的有效識(shí)別能夠提升語(yǔ)音可懂度,使各種智能設(shè)備最大限度理解用戶意圖,從而更好地為人類服務(wù)。

        2 語(yǔ)音情感識(shí)別研究

        情感是一種綜合了人類行為、思想和感覺(jué)的現(xiàn)象[1]。語(yǔ)音情感是指從語(yǔ)音信號(hào)中獲取相應(yīng)情感信息,情感信息主要表現(xiàn)在內(nèi)外兩個(gè)層面:內(nèi)在情感信息指心率、脈搏、血壓等無(wú)法通過(guò)外表觀察到的信息;外在情感信息指面部表情、聲音、語(yǔ)氣、眉頭、姿勢(shì)等通過(guò)外表能觀察到的信息。語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)指利用計(jì)算機(jī)分析情感,提取出情感特征值,并利用這些參數(shù)進(jìn)行相應(yīng)的建模和識(shí)別,建立特征值與情感的映射關(guān)系,最終對(duì)情感分類。

        2.1 語(yǔ)音情感語(yǔ)料庫(kù)

        人的情感是通過(guò)面部表情、身姿、聲音及生理信號(hào)等多種模態(tài)表現(xiàn)出來(lái)的[2,3]。情感判斷可基于這些模態(tài)中的一個(gè)或多個(gè)進(jìn)行,但單模態(tài)信息不全、易受干擾,而多模態(tài)信息能夠互相印證、互相補(bǔ)充,從而為情感判斷提供更全面、準(zhǔn)確的信息,以提高情感識(shí)別性能。語(yǔ)音情感語(yǔ)料庫(kù)是進(jìn)行SER的基礎(chǔ),大規(guī)模、多樣化、高質(zhì)量的優(yōu)質(zhì)語(yǔ)料庫(kù)對(duì)SER性能的提升至關(guān)重要。隨著SER的發(fā)展,各種單模態(tài)、多模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生,根據(jù)語(yǔ)音屬性將數(shù)據(jù)庫(kù)歸類,見(jiàn)表1。

        表1 語(yǔ)音情感語(yǔ)料庫(kù)的歸類

        表1根據(jù)語(yǔ)種差異、語(yǔ)音自然度、情感獲取方式及情感描述模型將語(yǔ)音情感數(shù)據(jù)庫(kù)歸類,通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進(jìn)行研究。為了更直觀地區(qū)分兩類情感,表2進(jìn)行了詳細(xì)總結(jié)。

        由表2可知,離散型情感[2]指使用形容詞標(biāo)簽將不同情感表示為相對(duì)獨(dú)立的情感類別,多屬于表演型或引導(dǎo)型,每類情感演繹逼真,能達(dá)到單一、易辨識(shí)的程度。維度型情感[2]通過(guò)喚醒維(Arousal)、效價(jià)維(Valence)、支配維(Dominance)等取值連續(xù)的維度將情感描述為一個(gè)多維信號(hào),要求標(biāo)注者將主觀情感直接量化為客觀實(shí)數(shù)值,如圖1所示。其中,喚醒維是對(duì)人生理活動(dòng)/心理警覺(jué)水平的度量;效價(jià)維度量人的愉悅程度,情感從極度苦惱到極度開(kāi)心互相轉(zhuǎn)化;支配維指影響周圍環(huán)境或反過(guò)來(lái)受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強(qiáng)度維(Intensity)加入維度描述模型。期望維是對(duì)說(shuō)話人情感出現(xiàn)的突然性度量,即說(shuō)話人缺乏預(yù)料和準(zhǔn)備程度的度量;強(qiáng)度維指說(shuō)話人偏離冷靜的程度[3]。

        表2 兩種情感描述模型的區(qū)別

        圖1 愉悅-喚醒模

        近年來(lái),隨著SER研究的順利開(kāi)展,研究者根據(jù)情感描述模型錄制了相應(yīng)的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表3)和維度型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表4),所列的各類情感數(shù)據(jù)庫(kù)大都公開(kāi)或可以通過(guò)許可證授權(quán)得到。

        表3 常用的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)

        表4 常用的維度型語(yǔ)音情感數(shù)據(jù)庫(kù)

        由表3可見(jiàn),大部分?jǐn)?shù)據(jù)庫(kù)都是通過(guò)表演方式采集。事實(shí)上采用自發(fā)語(yǔ)音情感更合理,但使用表演型情感數(shù)據(jù)庫(kù)也有一定好處,可避免數(shù)據(jù)庫(kù)包含過(guò)多無(wú)效標(biāo)簽數(shù)據(jù)。由表4可知,常用的維度型情感語(yǔ)料庫(kù)主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP等,對(duì)于維度型情感庫(kù)通常采用PAD(Pleasure-Arousal-Dominance)量表進(jìn)行情感信息標(biāo)注。

        隨著SER的發(fā)展,越來(lái)越多的研究者嘗試將多模態(tài)信息融合來(lái)進(jìn)一步提升SER性能。下面以常用的eNTERFACE05、SAVEE和RML模態(tài)數(shù)據(jù)庫(kù)為例,分析在不同數(shù)據(jù)庫(kù)上使用不同分類方法所取得的最佳性能。

        表5展示了2015~2019年在SAVEE數(shù)據(jù)庫(kù)上使用不同分類方法所取得的性能。由表5可知,在SAVEE數(shù)據(jù)庫(kù)上,目前結(jié)合多模態(tài)信息的SER系統(tǒng)最優(yōu)性能可達(dá)到98.33%,這是一個(gè)非??捎^的結(jié)果。

        表5 SAVEE多模態(tài)庫(kù)上不同方法性能比較

        表6展示了2012~2019年部分研究者在RML模態(tài)數(shù)據(jù)庫(kù)上的研究結(jié)果。由表6可知,目前RML數(shù)據(jù)庫(kù)上各分類方法整體性能不是很好,2015年取得的最優(yōu)性能為83%。

        表6 RML多模態(tài)庫(kù)上不同方法的性能比較

        表7展示了2009~2019年部分研究者在eNTERFACE05模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果。由表7可知,文獻(xiàn)[10]取得了最優(yōu)的性能,其它各類方法的性能均較低。縱觀表5、表6、表7,可以得出:在SAVEE數(shù)據(jù)庫(kù)上目前各分類方法取得了最優(yōu)性能,RML次之,eNTERFACE05數(shù)據(jù)庫(kù)上性能最差。歸因于eNTERFACE05庫(kù)帶有一定噪音,而RML模態(tài)數(shù)據(jù)庫(kù)中的語(yǔ)料較為干凈,SAVEE數(shù)據(jù)庫(kù)是由專業(yè)演員錄制的,對(duì)于每種情感的表達(dá)到位,數(shù)據(jù)庫(kù)質(zhì)量較好。

        表7 eNTERFACE05多模態(tài)庫(kù)上不同方法的性能比較

        2.2 語(yǔ)音情感特征提取

        語(yǔ)音中情感的自動(dòng)識(shí)別將是一項(xiàng)具有挑戰(zhàn)性的任務(wù),對(duì)情感的識(shí)別嚴(yán)重依賴于語(yǔ)音情感特征分類的有效性。語(yǔ)音情感特征可分為語(yǔ)言特征和聲學(xué)特征。語(yǔ)言特征即語(yǔ)音所要表達(dá)的言語(yǔ)信息,聲學(xué)特征則包含了說(shuō)話人的語(yǔ)氣、語(yǔ)調(diào),蘊(yùn)含感情色彩。提取關(guān)聯(lián)度高的情感聲學(xué)特征有助于確定說(shuō)話人情感狀態(tài)。通常以幀為單位提取聲學(xué)特征,但這些特征一般以全局統(tǒng)計(jì)的方式作為模型的輸入?yún)⑴c情感識(shí)別。全局統(tǒng)計(jì)指聽(tīng)覺(jué)上獨(dú)立的語(yǔ)句或單詞,常用的統(tǒng)計(jì)指標(biāo)有極值、方差、中值、均值、偏度、最小值、最大值、峰度等。目前,常用的聲學(xué)特征包括韻律特征、譜特征和音質(zhì)特征。為了進(jìn)一步提升識(shí)別性能,研究者也將個(gè)性化特征[19]與非個(gè)性化特征[20]、非線性動(dòng)力學(xué)特征[21]、基于人耳聽(tīng)覺(jué)特性的特征[22]以及i-vector特征[23]引入SER中,見(jiàn)表8。

        表8 基于語(yǔ)音情感的聲學(xué)特征分類

        表8給出了語(yǔ)音情感特征的分類及其所包含的成分。通常來(lái)說(shuō),單一特征不能完全包含語(yǔ)音情感的所有有用信息,為了使SER系統(tǒng)性能達(dá)到最優(yōu),研究者通常將不同特征融合來(lái)提高系統(tǒng)性能。下面將詳細(xì)介紹每種情感特征的內(nèi)容及其研究狀態(tài)。

        2.2.1 韻律特征

        韻律特征[24]在SER領(lǐng)域已被普遍使用,這些韻律特征并不影響對(duì)語(yǔ)音語(yǔ)義信息的識(shí)別,但決定著語(yǔ)音流暢度、自然度和清晰度。最常用的韻律特征有:時(shí)長(zhǎng)相關(guān)特征(如語(yǔ)速、短時(shí)平均過(guò)零率等)、基頻相關(guān)特征(如基因頻率及其均值、變化范圍、變化率、均方差等)以及能量相關(guān)特征(如短時(shí)平均能量、短時(shí)能量變化率、短時(shí)平均振幅)等。關(guān)于韻律特征對(duì)SER性能的影響,研究者作了深入分析與研究,見(jiàn)表9。

        表9 常用的韻律特征對(duì)SER性能的影響

        表9中,Luengo等人[25]使用了由基頻和能量的最大值、最小值、均值及方差等組成的31維韻律特征集,在包含英語(yǔ)、法語(yǔ)等多語(yǔ)種情感語(yǔ)料庫(kù)上的識(shí)別性能均接近于60%;IIiou等人[26]提取了EMO-DB語(yǔ)料庫(kù)的35維韻律特征,系統(tǒng)性能達(dá)到51%;Rao等人[27]提取了韻律特征時(shí)長(zhǎng)、基頻和能量對(duì)應(yīng)的全局特征和局部特征,并采用SVM在EMO-DB語(yǔ)料庫(kù)上對(duì)7種情感進(jìn)行分類,取得了64.38%的平均識(shí)別性能;Kao等人[28]分別從幀、音節(jié)、詞語(yǔ)級(jí)別提取了韻律特征并對(duì)4種情感進(jìn)行分類,獲得了90%的識(shí)別性能。綜合來(lái)看,韻律特征對(duì)情感識(shí)別系統(tǒng)性能的影響較大。

        2.2.2 基于譜的相關(guān)特征

        基于譜的相關(guān)特征體現(xiàn)了聲道形狀變化與發(fā)聲運(yùn)動(dòng)間的相關(guān)性[29]。譜特征參數(shù)反映信號(hào)在頻域的特性,不同情感在各個(gè)頻譜間的能量是有差異的(如表達(dá)歡快的語(yǔ)音在高頻區(qū)間能量較高,表達(dá)哀愁的語(yǔ)音在同樣的頻段能量較低)?;谧V的相關(guān)特征主要分為線性頻譜特征和倒譜特征。常用的線性譜特征有:線性預(yù)測(cè)系數(shù)(Linear Prediction Cofficients,LPC)、對(duì)數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,LFPC)及單邊自相關(guān)線性預(yù)測(cè)系數(shù)(One-sided Autocorrelation Linear Predictor Coefficient,OSALPC)等;常用的倒譜特征有:線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Cofficients,LPCC)、單邊自相關(guān)線性預(yù)測(cè)倒譜系數(shù)(One-sided Autocorrelation Linear Predictor Cepstral-based Coefficient,OSALPCC)以及梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Cofficients,MFCC)等。關(guān)于譜特征對(duì)SER性能的影響,部分研究者作了深入分析與研究,見(jiàn)表10。

        表10 常用的譜特征對(duì)SER性能的影響

        表10中,Bou-Ghazale等人[30]研究了倒譜特征和線性譜特征在壓力語(yǔ)音檢測(cè)任務(wù)中的性能表現(xiàn),實(shí)驗(yàn)表明,單獨(dú)使用LPC、OSALPC、LPCC、OSALPCC、MFCC特征時(shí),識(shí)別率為:48.19%、53.51%、68.71%、65.87%、69.45%,平均識(shí)別率為61.15%。從實(shí)驗(yàn)結(jié)果可以看出,倒譜特征的區(qū)分能力明顯優(yōu)于線性譜特征;Nwe等人[31]使用LPCC、MFCC和LFPC特征時(shí)識(shí)別率分別為56.1%、59%和78.1%,平均識(shí)別率為64.4%,通過(guò)實(shí)驗(yàn)證明線性譜特征的識(shí)別性能優(yōu)于倒譜特征。目前,MFCC表現(xiàn)出的性能最優(yōu),是因?yàn)槠渚哂杏?jì)算簡(jiǎn)單、區(qū)分能力好等優(yōu)點(diǎn)。臺(tái)灣學(xué)者選用MFCC、LPCC等作為特征向量,使用SVM對(duì)普通話5種情感進(jìn)行分類,獲得了84.2%的識(shí)別結(jié)果[32]。文獻(xiàn)[33]單獨(dú)使用MFCC特征對(duì)情感語(yǔ)音進(jìn)行分類,平均識(shí)別率為62.3%。綜合來(lái)看,譜特征對(duì)SER的性能影響較大。

        2.2.3 音質(zhì)特征

        音質(zhì)特征是語(yǔ)音的一種主觀評(píng)價(jià)指標(biāo),描述了聲門激勵(lì)信號(hào)的性質(zhì),包括發(fā)聲者語(yǔ)態(tài)、喘息、顫音及哽咽,用來(lái)衡量語(yǔ)音純凈度、清晰度和辨識(shí)度[34]。通過(guò)對(duì)聲音質(zhì)量的評(píng)價(jià),可獲得說(shuō)話人的生理、心理信息并對(duì)其情感狀態(tài)進(jìn)行區(qū)分。用于衡量聲音質(zhì)量的聲學(xué)特征一般有:共振峰頻率、帶寬、頻率擾動(dòng)、振幅擾動(dòng)、諧波噪聲比、閃光及聲門參數(shù)等。關(guān)于聲音質(zhì)量對(duì)SER的影響,其代表性成果見(jiàn)表11。

        表11 常用的音質(zhì)特征對(duì)SER性能的影響

        表11中,Lahaie等人[35]研究了5種音頻帶寬對(duì)SER的影響,平均識(shí)別率為71.65%。Li等人[36]提取了頻率微擾和振幅微擾等音質(zhì)參數(shù),僅有MFCC特征時(shí),基線性能是65.5%,將MFCC與頻率微擾或振幅微擾結(jié)合時(shí),系統(tǒng)性能都會(huì)有所改善,將三者結(jié)合,系統(tǒng)最佳性能可達(dá)到69.1%。Wang等人[37]等人提出了一種傅里葉參數(shù)特征,使用該特征時(shí)SER性能可達(dá)到76.00%。綜合來(lái)看,音質(zhì)特征對(duì)SER性能也有一定的影響。

        2.2.4 其它特征

        為進(jìn)一步提升SER性能,一些研究者致力于提取更為有效的特征,經(jīng)過(guò)大量實(shí)驗(yàn)驗(yàn)證,除韻律特征、譜特征和音質(zhì)特征外,目前對(duì)系統(tǒng)性能影響較大的一些特征有:個(gè)性化特征與非個(gè)性化特征、基于人耳聽(tīng)覺(jué)特性的特征、i-vector特征以及非線性特征,下面詳述各類特征及其典型的研究成果。

        個(gè)性化與非個(gè)性化特征:根據(jù)語(yǔ)音情感聲學(xué)特征是否受說(shuō)話人自身說(shuō)話特征影響,將其分為個(gè)性化和非個(gè)性化特征。個(gè)性化特征反映數(shù)值大小,包含大量反映說(shuō)話人語(yǔ)音特點(diǎn)的情感信息;非個(gè)性化特征反映說(shuō)話過(guò)程中情感的變化情況,包含一定情感信息且不易受說(shuō)話人影響,具有很好的相通性和穩(wěn)定性。文獻(xiàn)[38]提取了基頻、短時(shí)能量、共振峰的變化率及它們的變化范圍、方差等統(tǒng)計(jì)值作為非個(gè)性化特征,同時(shí)提取了傳統(tǒng)基頻、共振峰等個(gè)性化特征,并用這兩類特征進(jìn)行實(shí)驗(yàn),結(jié)果表明非個(gè)性化特征對(duì)SER有著很大的作用,且這類特征受不同說(shuō)話者的影響更小。

        基于人耳聽(tīng)覺(jué)特性的特征:過(guò)零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)使用過(guò)零率和峰值的非線性壓縮表示語(yǔ)音信號(hào)的頻率及幅度信息,是一種基于人耳聽(tīng)覺(jué)特性的特征。文獻(xiàn)[39]將其引入SER領(lǐng)域分析了分幀時(shí)長(zhǎng)對(duì)ZCPA特征的影響,提出了一種將Teager能量算子與ZCPA特征相結(jié)合的過(guò)零最大Teager能量算子特征。該特征保留了人耳聽(tīng)覺(jué)特性,同時(shí)也將最能表征情感狀態(tài)的特征融入系統(tǒng),實(shí)驗(yàn)結(jié)果表明,該特征取得了較好的識(shí)別性能。

        i-vector特征:i-vector是一種將GMM超向量空間映射到低維總變異空間的技術(shù)。文獻(xiàn)[40]首先提取1584維的聲學(xué)特征訓(xùn)練語(yǔ)音情感狀態(tài)識(shí)別的通用模型,然后在該模型基礎(chǔ)上為每類情感狀態(tài)生成用于i-vector的GMM超向量并將其串聯(lián),最后使用SVM來(lái)識(shí)別4類語(yǔ)音情感,結(jié)果表明,該特征取得了較好的識(shí)別性能。

        非線性特征:基于語(yǔ)音混沌特性,應(yīng)用非線性動(dòng)力學(xué)模型分析情感語(yǔ)音信號(hào),可以提取該模型下情感語(yǔ)音信號(hào)的非線性特征及常用的聲學(xué)特征(韻律特征和MFCC)。文獻(xiàn)[41]將非線性動(dòng)力學(xué)模型與情感語(yǔ)音信號(hào)處理相結(jié)合,提取了最小延遲時(shí)間、關(guān)聯(lián)維數(shù)、Kolmogorov熵、最大Lyapunov指數(shù)和Hurst指數(shù)等情感非線性特征,并將非線性特征與不同特征融合驗(yàn)證了該組合下的情感識(shí)別性能,研究了EMO-DB語(yǔ)料庫(kù)下語(yǔ)音信號(hào)混沌特性對(duì)SER性能的影響,結(jié)果表明,在單獨(dú)使用韻律特征、MFCC和非線性特征時(shí),識(shí)別率分別為:69.00%、80.88%和72.00%。將三者融合最佳識(shí)別率可達(dá)到87.62%。從識(shí)別結(jié)果來(lái)看,非線性特征有效表征了情感信號(hào)的混沌特性,與傳統(tǒng)聲學(xué)特征結(jié)合后,SER性能得到了顯著提升。

        2.2.5 特征融合

        單一特征僅從某個(gè)側(cè)面對(duì)語(yǔ)音情感信息進(jìn)行表達(dá),不能很好地表示語(yǔ)音情感,為此,研究者通常將多個(gè)單特征融合以進(jìn)一步提升SER性能,見(jiàn)表12。

        表12 融合特征對(duì)系統(tǒng)性能的影響(%)

        表12中,趙力等人[42]將韻律特征與音質(zhì)特征相結(jié)合,平均識(shí)別性能達(dá)到了75%;Amol等人[43]將MFCC、過(guò)零率、能量等特征相結(jié)合,獲得了98.31%的性能。文獻(xiàn)[44]提取了短時(shí)平均能量、短時(shí)平均幅度,短時(shí)過(guò)零率、線性預(yù)測(cè)系數(shù)、MFCC和短時(shí)自相關(guān)系數(shù)特征并將其融合,最佳識(shí)別率可達(dá)到79.75%。綜合來(lái)看,融合的特征集對(duì)情感識(shí)別性能均優(yōu)于單一特征集。

        2.2.6 深度學(xué)習(xí)特征

        深度學(xué)習(xí)方法在處理復(fù)雜的海量數(shù)據(jù)建模上有很大優(yōu)勢(shì),可以直接從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)最佳特征表示,通過(guò)組合低層特征形成更加抽象的高層特征以表示屬性的類別或特征,從而有效捕獲隱藏于數(shù)據(jù)內(nèi)部的特征,近年來(lái)部分研究者將其應(yīng)用于語(yǔ)音情感特征提取,并取得了一定成果,見(jiàn)表13。

        表13 深度學(xué)習(xí)特征對(duì)系統(tǒng)性能的影響

        表13給出了深度學(xué)習(xí)特征對(duì)SER性能的影響。文獻(xiàn)[45]將瓶頸結(jié)構(gòu)(Bottle-Neck,BN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)相結(jié)合來(lái)提取新的特征,其識(shí)別率可達(dá)到93.66%。文獻(xiàn)[46]采用CNN進(jìn)行特征提取,其最佳識(shí)別率可達(dá)到93.7%;文獻(xiàn)[47]使用RNN提取語(yǔ)音情感特征,識(shí)別率可達(dá)到86.50%;文獻(xiàn)[48]使用LSTM提取語(yǔ)音情感特征,在CHiME中可進(jìn)一步將錯(cuò)誤率降到22%。綜合來(lái)看,使用深度學(xué)習(xí)自動(dòng)提取的特征對(duì)SER性能的影響較大,更有利于SER的順利進(jìn)行。

        2.3 語(yǔ)音情感聲學(xué)建模

        要對(duì)情感狀態(tài)進(jìn)行判斷,首先要建立SER模型。識(shí)別模型是SER系統(tǒng)的核心。在識(shí)別過(guò)程中,情感特征輸入到識(shí)別網(wǎng)絡(luò),計(jì)算機(jī)通過(guò)相應(yīng)算法獲取識(shí)別結(jié)果。顯然,識(shí)別網(wǎng)絡(luò)的選擇與識(shí)別結(jié)果有著直接關(guān)系。早期的統(tǒng)計(jì)模型與識(shí)別算法大致有以下幾種:決策樹(shù)、基于模型匹配法、貝葉斯網(wǎng)絡(luò)、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)、多層感知機(jī)(Multilayer Perceptron,MLP)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(jī)(Support Vector Machine,SVM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。隨著深度學(xué)習(xí)的興起,SER模型訓(xùn)練階段逐漸采用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。目前SER領(lǐng)域使用最廣泛的模式分類器有:HMM、GMM、SVM及ANN等,下面著重介紹這幾種算法。

        2.3.1 隱馬爾科夫模型

        HMM是一種模擬了人類語(yǔ)言過(guò)程的時(shí)變特征有參表示法。在SER領(lǐng)域有著廣泛的應(yīng)用,部分研究者在常用的一些情感語(yǔ)料庫(kù)(如EMO-DB、IEMOCAP等)上提取了韻律特征、譜特征、音質(zhì)特征等各類特征,并采用HMM作為分類器識(shí)別不同語(yǔ)音情感,相關(guān)研究成果見(jiàn)表14。

        表14 HMM分類算法對(duì)系統(tǒng)性能的影響

        從表14可以看出,使用HMM作為分類器時(shí),Yun等人的研究成果達(dá)到了89.00%的識(shí)別率,文獻(xiàn)[50,55]的研究成果也取得了不錯(cuò)的成績(jī),但最低性能僅有62.5%。

        2.3.2 高斯混合模型

        GMM是一種可擬合所有概率分布函數(shù)的概率密度估計(jì)模型。相關(guān)研究者提取了基頻、能量、MFCC、共振峰及其它特征并將各類特征以不同方式融合,在各類情感語(yǔ)料庫(kù)上做了大量實(shí)驗(yàn),見(jiàn)表15。

        從表15可以看出,使用GMM進(jìn)行SER識(shí)別時(shí),Neiberg等人的研究成果達(dá)到了90.00%的識(shí)別率,這是一個(gè)非常不錯(cuò)的識(shí)別結(jié)果。除此之外,文獻(xiàn)[57-58]也取得了可觀的識(shí)別結(jié)果。

        表15 GMM分類算法對(duì)系統(tǒng)性能的影響

        2.3.3 支持向量機(jī)

        SVM是一種通過(guò)核函數(shù)將特征向量由低維空間映射到高維空間實(shí)現(xiàn)最優(yōu)分類的算法。在SER領(lǐng)域有著廣泛的應(yīng)用,相關(guān)研究成果見(jiàn)表16。

        表16 SVM分類算法對(duì)系統(tǒng)性能的影響

        從表16可以看出,目前很多研究者使用SVM作為分類器進(jìn)行SER并取得了非??捎^的識(shí)別結(jié)果。其中,文獻(xiàn)[70]達(dá)到了90.00%的最優(yōu)識(shí)別性能,其他研究者的研究成果也僅次于文獻(xiàn)[70]。綜合來(lái)看,該方法有利于提高SER的性能。

        2.3.4 人工神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,在理解和抽象了人腦結(jié)構(gòu)和外界刺激響應(yīng)機(jī)制后,以網(wǎng)絡(luò)拓?fù)渲R(shí)為理論基礎(chǔ),模擬人腦對(duì)復(fù)雜信息處理機(jī)制的一種數(shù)學(xué)模型、數(shù)學(xué)方法、計(jì)算結(jié)構(gòu)或系統(tǒng)。該網(wǎng)絡(luò)具有一定的智能性,表現(xiàn)為良好的容錯(cuò)性、層次性、可塑性、自適應(yīng)性,并具有聯(lián)想記憶、非線性和并行分布式處理能力。

        近年來(lái),ANN依靠其強(qiáng)大的特征提取及對(duì)海量數(shù)據(jù)進(jìn)行深層次建模能力,在SER領(lǐng)域取得了顯著進(jìn)步。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以及各種自編碼器等新的網(wǎng)絡(luò)模型、分支及算法不斷被提出,這些模型對(duì)SER系統(tǒng)性能的提升產(chǎn)生了深遠(yuǎn)影響。下面以RNN、CNN以及各種自編碼器為例,詳細(xì)介紹SER的研究進(jìn)展。

        循環(huán)神經(jīng)網(wǎng)絡(luò):RNN中存在環(huán)形結(jié)構(gòu),其隱含層內(nèi)部神經(jīng)元互連,可存儲(chǔ)網(wǎng)絡(luò)序列輸入的歷史信息,是一種專門用于處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其時(shí)序并非僅僅指代時(shí)間概念上的順序,也可理解為序列化數(shù)據(jù)間的相對(duì)位置,如語(yǔ)音中的發(fā)音順序、某個(gè)英語(yǔ)單詞的拼寫順序等。若相關(guān)信息與預(yù)測(cè)位置間隔較小,RNN可順利預(yù)測(cè);反之,RNN無(wú)法學(xué)習(xí)這些信息。為此,研究者對(duì)RNN進(jìn)行了改進(jìn),提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),該網(wǎng)絡(luò)能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系,已被廣泛使用,相關(guān)研究成果見(jiàn)表17。

        表17 循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)SER性能的影響

        在表17中,文獻(xiàn)[75]使用LSTM網(wǎng)絡(luò)從語(yǔ)音中自動(dòng)發(fā)現(xiàn)與情感相關(guān)特征,并使用局部注意機(jī)制以集中于語(yǔ)音信號(hào)中更突出情感的特定區(qū)域,在IEMOCAP語(yǔ)料庫(kù)上進(jìn)行了評(píng)估,結(jié)果表明,與使用固定特征的傳統(tǒng)SVM情感識(shí)別算法相比,該方法可提供更好的性能。然而,傳統(tǒng)LSTM假設(shè)當(dāng)前時(shí)間步長(zhǎng)狀態(tài)取決于前一個(gè)時(shí)間步長(zhǎng),該假設(shè)限制了時(shí)間依賴性建模能力,文獻(xiàn)[76]提出了Advanced-LSTM網(wǎng)絡(luò),可更好地進(jìn)行時(shí)間上下文建模,實(shí)驗(yàn)表明,該網(wǎng)絡(luò)性能優(yōu)于傳統(tǒng)LSTM。文獻(xiàn)[77]提出了一種時(shí)空循環(huán)神經(jīng)網(wǎng)絡(luò)(Spatial-Temporal Recurrent Neural Network,STRNN),將信號(hào)源時(shí)空信息的特征集成到統(tǒng)一時(shí)空依賴模型。通過(guò)沿不同方向遍歷每個(gè)時(shí)間切片空間區(qū)域,利用多方向RNN層捕捉長(zhǎng)距離上下文信息。實(shí)驗(yàn)表明,所提出的方法更具競(jìng)爭(zhēng)力。

        卷積神經(jīng)網(wǎng)絡(luò):CNN是一種專門用來(lái)處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),如時(shí)間序列數(shù)據(jù)和圖像數(shù)據(jù)。CNN引入了權(quán)值共享及降采樣的概念,大幅減少了訓(xùn)練參數(shù)數(shù)量,在提高訓(xùn)練速度的同時(shí)有效防止過(guò)擬合,相關(guān)研究成果見(jiàn)表18。

        在表18中,文獻(xiàn)[78]使用CNN對(duì)4種情感進(jìn)行識(shí)別,平均識(shí)別率可達(dá)到73.32%。文獻(xiàn)[79]提出了基于時(shí)間調(diào)制信號(hào)的3維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Three-dimensional Convolutional Recurrent Neural Network,3D-CRNN)端到端SER系統(tǒng)。卷積層用于提取高級(jí)多尺度頻譜時(shí)間表示,循環(huán)層用于提取情感識(shí)別的長(zhǎng)期依賴性。在IEMOCAP數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,結(jié)果表明,所提出方法具有更高識(shí)別精度。文獻(xiàn)[80]針對(duì)CNN訓(xùn)練中卷積核權(quán)值的更新算法進(jìn)行改進(jìn),使卷積核權(quán)值的更新算法與迭代次數(shù)有關(guān)聯(lián),提高CNN的表達(dá)能力。在語(yǔ)音情感特征提取方面,選擇提取語(yǔ)音特征應(yīng)用最廣泛的MFCC方法進(jìn)行實(shí)驗(yàn),同時(shí)為了增加情感語(yǔ)音之間的特征差異性,將語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理后得到的MFCC特征數(shù)據(jù)矩陣做變換,提高SER性能。對(duì)改進(jìn)CNN的SER模型進(jìn)行實(shí)驗(yàn)分析,結(jié)果表明,改進(jìn)后的SER算法的錯(cuò)誤率比傳統(tǒng)算法減少約7%。

        表18 卷積神經(jīng)網(wǎng)絡(luò)對(duì)SER性能的影響

        自編碼器:自編碼器是一種能夠通過(guò)無(wú)監(jiān)督學(xué)習(xí)學(xué)到輸入數(shù)據(jù)高效表示的ANN。輸入數(shù)據(jù)的這一高效表示稱為編碼,其維度一般遠(yuǎn)小于輸入數(shù)據(jù),使得自編碼器可用于降維。此外,自編碼器可作為強(qiáng)大的特征檢測(cè)器,應(yīng)用于神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練,相關(guān)研究成果見(jiàn)表19。

        表19 自編碼器對(duì)SER性能的影響

        在表19中,文獻(xiàn)[81]提出了新的無(wú)監(jiān)督域適應(yīng)模型—Universum自編碼器,以改善在不匹配的訓(xùn)練和測(cè)試條件下系統(tǒng)性能。在標(biāo)記的GEWEC數(shù)據(jù)庫(kù)和其它3個(gè)未標(biāo)記的數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,與其它域適應(yīng)方法相比,該方法具有較好的效果。文獻(xiàn)[82]使用半監(jiān)督階梯網(wǎng)絡(luò)進(jìn)行情感識(shí)別,最佳識(shí)別率可達(dá)到59.7%。

        3 語(yǔ)音情感識(shí)別的應(yīng)用

        SER是一個(gè)新興的研究領(lǐng)域且在教育、醫(yī)學(xué)、心理學(xué)、話務(wù)中心、汽車駕駛、電子商務(wù)等人機(jī)交互領(lǐng)域有著廣泛的應(yīng)用。

        教育領(lǐng)域:對(duì)接受在線教育的學(xué)生進(jìn)行語(yǔ)音情感分析,可隨時(shí)反饋學(xué)生狀態(tài);若發(fā)現(xiàn)學(xué)生對(duì)課程內(nèi)容困惑時(shí),可適當(dāng)調(diào)整教學(xué)難度和教學(xué)進(jìn)度,實(shí)現(xiàn)更人性化的網(wǎng)絡(luò)教學(xué),從而提升教學(xué)效果。

        醫(yī)學(xué)領(lǐng)域:言語(yǔ)障礙者的言語(yǔ)特征往往比正常人言語(yǔ)特征更難理解,VAESS工程開(kāi)發(fā)了一種便攜式語(yǔ)音合成器來(lái)輔助殘疾人講話和表達(dá)情感,對(duì)語(yǔ)音中情感的有效識(shí)別能提升語(yǔ)音可懂度,幫助聽(tīng)眾更好地理解說(shuō)話人所要表達(dá)的含義。

        心理學(xué)領(lǐng)域:情感不僅與說(shuō)話人語(yǔ)音有關(guān),也與說(shuō)話人所處的情景密切相關(guān),基于SER系統(tǒng)的情景分析能夠及時(shí)獲取說(shuō)話人情感狀態(tài),幫助說(shuō)話人排解不良情緒,避免產(chǎn)生抑郁傾向。另外,將基于說(shuō)話人情景的檢測(cè)與心理學(xué)醫(yī)師的醫(yī)療方案結(jié)合,能夠?yàn)檎f(shuō)話人提供良好的心理疏導(dǎo)。

        智能話務(wù)系統(tǒng):根據(jù)用戶情感狀態(tài)安排服務(wù)優(yōu)先級(jí)或直接轉(zhuǎn)給人工客服,若用戶情緒起伏不定,智能系統(tǒng)可為用戶及時(shí)轉(zhuǎn)接人工客服;若人工客服情緒受到客戶影響,智能系統(tǒng)將及時(shí)提醒客服保持良好的服務(wù)態(tài)度,提高服務(wù)效率和質(zhì)量。

        汽車駕駛:通過(guò)提取駕駛員的語(yǔ)速、音量等聲學(xué)特征信息實(shí)時(shí)監(jiān)控并分析駕駛員情感狀態(tài),當(dāng)發(fā)現(xiàn)疲勞駕駛時(shí)及時(shí)督促駕駛員安全駕駛,可有效避免交通事故發(fā)生[47]。

        電子商務(wù)領(lǐng)域:在購(gòu)物網(wǎng)站和股票交易網(wǎng)站識(shí)別用戶語(yǔ)音情感,可靈活調(diào)控流量。

        綜上所述,研究SER系統(tǒng)具有一定學(xué)術(shù)價(jià)值和實(shí)用價(jià)值。要實(shí)現(xiàn)更好地人機(jī)交互,需要計(jì)算機(jī)在聽(tīng)懂說(shuō)話人言語(yǔ)信息的基礎(chǔ)上也能夠理解其中所蘊(yùn)含的情感信息。

        4 總結(jié)和展望

        隨著模式識(shí)別的迅速發(fā)展和ANN的再度興起以及人機(jī)交互的迫切需求,越來(lái)越多研究者逐漸投入SER并取得了顯著性成果。本研究論述了SER領(lǐng)域的幾個(gè)關(guān)鍵問(wèn)題,包括語(yǔ)音情感模型、語(yǔ)音情感語(yǔ)料庫(kù)、語(yǔ)音情感聲學(xué)特征提取、聲學(xué)建模及SER技術(shù)應(yīng)用。出于對(duì)SER研究現(xiàn)狀的分析和語(yǔ)音情感復(fù)雜性的考慮,總結(jié)了該領(lǐng)域面臨的挑戰(zhàn)和值得深入探究的問(wèn)題及未來(lái)發(fā)展趨勢(shì)。

        4.1 總結(jié)

        縱觀近幾年文獻(xiàn)來(lái)看,盡管有很多算法成功運(yùn)用于SER中,但大多數(shù)研究者僅使用這些算法在某些特定數(shù)據(jù)庫(kù)上測(cè)試,對(duì)實(shí)驗(yàn)數(shù)據(jù)依賴性強(qiáng)。在不同情感數(shù)據(jù)庫(kù)和測(cè)試環(huán)境中,各種識(shí)別算法均有其優(yōu)劣勢(shì),沒(méi)有普遍性。常見(jiàn)的SER方法都是基于語(yǔ)音情感特征進(jìn)行研究,但不論這些情感識(shí)別方法有多么精確,都無(wú)法與人腦相媲美。

        4.2 展望

        泛化性與多模態(tài)信息融合:SER不再局限于對(duì)普通語(yǔ)音進(jìn)行情感識(shí)別,如何將遠(yuǎn)程通話語(yǔ)音、言語(yǔ)障礙者語(yǔ)音以及低資源語(yǔ)音(如各地區(qū)方言、藏語(yǔ)等民族語(yǔ)言)中的情感語(yǔ)音與各類人群的面部表情、肢體語(yǔ)言和語(yǔ)義特征等多模態(tài)信息相融合進(jìn)行情感識(shí)別需要深入探討,多模態(tài)情感信息互相補(bǔ)充、相互驗(yàn)證,但在情感表達(dá)過(guò)程中,個(gè)體易受環(huán)境影響,不能充分表達(dá)多模態(tài)情感,在獲取情感數(shù)據(jù)過(guò)程中也會(huì)受當(dāng)前技術(shù)限制,使得多模態(tài)信息有所缺失;另外,多模態(tài)情感信息一般情況下借助多種傳感器來(lái)獲取,會(huì)存在記錄的異步性和不同模態(tài)與情感狀態(tài)表現(xiàn)的異步性。因此,將多模態(tài)信息進(jìn)行有效融合來(lái)提高SER性能將是一個(gè)值得深究的問(wèn)題。

        語(yǔ)料問(wèn)題:優(yōu)質(zhì)的情感語(yǔ)料庫(kù)能夠提供可靠的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。與大規(guī)模語(yǔ)音語(yǔ)料庫(kù)和歌曲語(yǔ)料庫(kù)相比,現(xiàn)有情感語(yǔ)料庫(kù)一般是根據(jù)研究者研究目的建立的表演型、引導(dǎo)型語(yǔ)料庫(kù),語(yǔ)料資源較為稀少。另外,由于低資源語(yǔ)音使用人群較少且從事低資源語(yǔ)音情感研究的人群也明顯少于英語(yǔ)、漢語(yǔ)等大語(yǔ)種的研究人群,使得低資源相關(guān)研究仍處于萌芽階段。最后,不同研究者所采用的語(yǔ)音情感語(yǔ)料庫(kù)也有所差異,諸如語(yǔ)種、情感種類及說(shuō)話人差異等均影響SER。因此,針對(duì)現(xiàn)有語(yǔ)料庫(kù)問(wèn)題,合理豐富各類情感語(yǔ)料庫(kù)及采用先進(jìn)技術(shù)對(duì)情感語(yǔ)料庫(kù)進(jìn)行有效標(biāo)注很有必要。

        語(yǔ)音情感與聲學(xué)特征的關(guān)聯(lián)度:SER的目標(biāo)是讓機(jī)器勝任人腦識(shí)別水平。要求機(jī)器以盡可能接近人腦信息加工的方式對(duì)情感語(yǔ)音進(jìn)行聲學(xué)特征提取并加以正確關(guān)聯(lián)和映射。語(yǔ)音識(shí)別中提取的MFCC特征大幅改善了系統(tǒng)性能,而SER領(lǐng)域目前并未找到具有MFCC同樣地位的情感聲學(xué)特征。通常情況下將韻律特征、聲音質(zhì)量、譜特征相融合選出最優(yōu)特征集進(jìn)行SER。截至目前,該領(lǐng)域研究者普遍認(rèn)為基于語(yǔ)句時(shí)長(zhǎng)的全局特征與情感狀態(tài)間的關(guān)聯(lián)最密切,但界定情感特征的最優(yōu)時(shí)長(zhǎng)及將不同時(shí)長(zhǎng)聲學(xué)特征進(jìn)行融合探究與情感表達(dá)關(guān)聯(lián)更密切的聲學(xué)特征仍具有一定挑戰(zhàn)。

        SER建模:利用充足的語(yǔ)料訓(xùn)練情感識(shí)別系統(tǒng)找出各種聲學(xué)特征對(duì)應(yīng)情感的映射,實(shí)現(xiàn)對(duì)測(cè)試語(yǔ)料的正確識(shí)別。SER是對(duì)人腦語(yǔ)音情感信息加工方式的模擬,受人腦情感信息加工方式的復(fù)雜性及科技水平的限制,目前該領(lǐng)域構(gòu)建的識(shí)別系統(tǒng)僅是對(duì)人腦的一些簡(jiǎn)單功能的模擬,還無(wú)法達(dá)到機(jī)制模擬水平。在現(xiàn)有認(rèn)知水平上,構(gòu)建接近人腦信息加工機(jī)制的SER系統(tǒng)具有很大挑戰(zhàn)。

        SER技術(shù)的普及:隨著人機(jī)交互技術(shù)不斷發(fā)展,語(yǔ)音交互技術(shù)逐漸從實(shí)驗(yàn)室進(jìn)入市場(chǎng)(如蘋果公司Siri語(yǔ)音搜索軟件)。但SER領(lǐng)域目前并沒(méi)有成熟的相關(guān)應(yīng)用問(wèn)世,人機(jī)互動(dòng)的實(shí)時(shí)性要求在SER性能提升的同時(shí)也能降低計(jì)算量,具有很大實(shí)用價(jià)值。

        猜你喜歡
        模態(tài)數(shù)據(jù)庫(kù)特征
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        成人无码激情视频在线观看| 亚洲欧美日韩国产精品一区二区 | 亚洲人成无码区在线观看| 亚洲美国产亚洲av| 亚洲国产日韩欧美高清片a| 男男做h嗯啊高潮涩涩| 日韩久久无码免费毛片软件| 18成人片黄网站www| 2022国内精品免费福利视频| 国产偷拍自拍在线观看| 亚洲av中文无码字幕色本草| 国产成年女人特黄特色毛片免| 中文不卡视频| 中文字幕亚洲中文第一| 日本一卡二卡3卡四卡免费观影2022| 国产精品美女一区二区三区| 精品一二区| 国产av无毛无遮挡网站| 妺妺窝人体色www聚色窝仙踪| 亚洲爆乳无码专区| 人妻丰满少妇一二三区| 亚洲一区二区在线观看免费视频| 无码人妻av免费一区二区三区| 成人爽a毛片一区二区免费| 亚洲av一二三四又爽又色又色| 国产亚洲成性色av人片在线观| 欧美日韩色另类综合| 欧美日韩一区二区三区色综合| 亚洲中文字幕精品久久久| 国产大片黄在线观看| 国产女合集小岁9三部| 亚洲精品一区二区在线播放| 国产一区二区视频免费在线观看| v一区无码内射国产| 中文字幕永久免费观看| 国产女人av一级一区二区三区| 97se亚洲国产综合自在线观看| 亚洲国产中文在线二区三区免 | 福利体验试看120秒| 91精品国产91热久久p| 国产精品亚洲一区二区三区在线看 |