張 曉 宇, 張 華 熊*, 高 強
(1.浙江理工大學(xué) 信息學(xué)院,浙江 杭州 310018;2.浙江傳媒學(xué)院 媒體工程學(xué)院,浙江 杭州 310018)
在語音情感識別技術(shù)中,相對于傳統(tǒng)機器學(xué)習(xí)算法[1],神經(jīng)網(wǎng)絡(luò)算法為語音情感識別的突破奠定了重要基礎(chǔ)[2].近年來,深度學(xué)習(xí)在包括圖像處理、圖像識別、語音識別、自然語言處理等各大領(lǐng)域中的應(yīng)用越來越廣泛和深入,并且取得了顯著的成效[3].深度學(xué)習(xí)在語音情感識別中的應(yīng)用主要集中在兩方面:一方面,手動提取語音特征,通過深度網(wǎng)絡(luò)從特征中學(xué)習(xí)各個類別的特點[4]或者融合不同的特征[5],從而進一步建立模型預(yù)測語音信號的情感類別;另一方面,深度網(wǎng)絡(luò)直接從原始語音信號中學(xué)習(xí)并提取不同情感類別的特征,進而建立模型預(yù)測情感類別[6].
盡管語音情感識別已經(jīng)被關(guān)注很久,但它對研究者來說仍然是一個很大的挑戰(zhàn).語音情感數(shù)據(jù)集的匱乏,以及選取有效的語音信號特征是語音情感識別中存在的兩大問題.在日常交流中,聽話者本身就可以從聲音的韻律信息和文本的語義信息中獲取說話者表達的情感,Li等[7]應(yīng)用目前主流的雙向長短時記憶(bi-directional long short-term memory,BiLSTM)和注意力機制在音頻、文本上分別實現(xiàn)了情感識別,然而其采用的聲學(xué)特征一般是低階描述符(low level descriptors,LLD),如基頻、能量、過零率、梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC)等特征,雖然LLD與原始信號密切相關(guān),并有助于提取音頻的即時語音特征,但它們不提供任何關(guān)于話語的全局信息.文本語義主要是通過體現(xiàn)情感的單詞組合來表達,但單一文本信息同樣不能捕捉足夠的語音情感特征.頻譜圖中不同情感的圖像表達有明顯的區(qū)別,加上當前圖像分類算法已取得了顯著的成績,于是通過圖像分類進而識別語音情感成為語音情感分類的一種新嘗試[8].雖然頻譜圖中包含了頻域信息,不同的情感表達中,頻域信息也有明顯區(qū)別,但其圖像也只包含部分語音情感特征.考慮到聲學(xué)特征、語音轉(zhuǎn)錄的文本信息以及頻譜圖從不同角度表達語音情感并且不同特征信息在不同層面相互之間可以作為補充的情況,同時也受到Vo等[9]將文本和圖像特征結(jié)合實現(xiàn)圖像檢索的啟發(fā),本文提出一個新穎的基于深度學(xué)習(xí)的多模式權(quán)重網(wǎng)絡(luò)模型.模型沒有單一使用某一類特征完成情感分類,也沒有僅僅通過將多種特征提取后進行簡單的拼接融合從而識別情感,而是綜合考慮語音的聲學(xué)特征、文本信息以及頻譜圖信息,利用網(wǎng)絡(luò)自動學(xué)習(xí)獲取權(quán)重來調(diào)節(jié)各個特征信息所占比重,進而構(gòu)建模型預(yù)測音頻信號情感類別.最近的關(guān)于音樂情感分析的研究[10]也證明了應(yīng)用多模態(tài)信息包括音頻和視頻數(shù)據(jù)比使用單一特征識別效果更加顯著.
獲得聲學(xué)、文本和頻譜圖三者之間的關(guān)系至關(guān)重要,因此,利用三者的一級分類概率作為輸入搭建權(quán)重網(wǎng)絡(luò)分類模型,讓網(wǎng)絡(luò)自動學(xué)習(xí),賦予三者不同的權(quán)重,從而提高語音信號情感的識別率.另外,對于語音數(shù)據(jù)分類不均衡及數(shù)據(jù)量不足的問題,引入補充交叉熵[11].在頻譜圖分類方面,利用數(shù)據(jù)擴容以及加權(quán)隨機采樣函數(shù)和損失權(quán)重來改善這兩個問題.
本文充分利用目標聲音信號的聲學(xué)信息、文本信息、梅爾頻譜圖信息,將三者結(jié)合推斷出目標聲音信號所包含的情感.其中所提到的語音編碼模型(audio encoding model,AEM)如圖1所示,實現(xiàn)了從原始語音信號中提取MFCC特征,并將其輸入到門循環(huán)單元(gate recurrent unit,GRU).GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的一種,由多個時間步GRU Cell構(gòu)成,是和長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)一樣為了解決長期記憶和反向傳播中的梯度問題而提出的網(wǎng)絡(luò),相比LSTM,網(wǎng)絡(luò)具有更少權(quán)重,更易于計算.編碼后的特征向量與韻律特征結(jié)合送入softmax層得到一級情感分類概率分布.文本編碼模型(text encoding model,TEM)的輸入信息為原始語音轉(zhuǎn)換后的文本[12],首先使用預(yù)訓(xùn)練模型Glove[13]轉(zhuǎn)換詞向量后,同樣利用GRU和softmax實現(xiàn)分類,模型流程如圖2所示.頻譜分類模型(spectral classification model,ICM)使用原始語音轉(zhuǎn)換后的梅爾頻譜圖作為輸入,通過ResNet-50預(yù)訓(xùn)練模型[14]實現(xiàn)圖像情感分類.本文提出的多模式權(quán)重網(wǎng)絡(luò)語音情感分析方法綜合了上述3個單一模型的特征信息,通過自動優(yōu)化權(quán)重獲取更優(yōu)的分類結(jié)果.
多模式權(quán)重網(wǎng)絡(luò)編碼分類模型(multi-modal weighted network encoding-classification model,MWEM)的目標是從不同角度分析原始語音信號,綜合考慮多種特征,利用網(wǎng)絡(luò)自動評估單一特征的重要性從而得到更準確的情感分類結(jié)果.具體模型如圖3所示.
語音信號f作為整體模型的輸入,經(jīng)由AEM得到一個語音情感分類的概率分布Ps=(s1s2s3s4);另一方面聲音信號轉(zhuǎn)錄的文本信息經(jīng)過TEM得到情感分類的概率分布Pt=(t1t2t3t4);同時依據(jù)聲音信號轉(zhuǎn)換后的梅爾頻譜圖通過ICM得到概率分布Pi=(i1i2i3i4).每個單一模型預(yù)測的結(jié)果都是單一特征在情感分類中的體現(xiàn),動態(tài)賦予不同模型預(yù)測結(jié)果不同的權(quán)重,也就意味著動態(tài)改變單一特征在整體分類中的影響,進一步提高情感分類精確度.權(quán)重網(wǎng)絡(luò)內(nèi)部利用每個單一模型概率分布的分量通過式(1)線性回歸出最終分類概率的對應(yīng)分量:
(1)
集成學(xué)習(xí)模型(ensemble learning model,ENSELM)以stacking方法為基礎(chǔ).stacking方法是集成學(xué)習(xí)的方法之一,集成學(xué)習(xí)就是將多個弱監(jiān)督模型組合起來以便得到一個更好、更全面的強監(jiān)督模型.集成學(xué)習(xí)潛在的思想是即便某一個弱分類器得到了錯誤的預(yù)測,其他的弱分類器也可以將錯誤糾正回來[15].stacking是指訓(xùn)練一個模型用于組合其他模型.集成學(xué)習(xí)模型首先分別訓(xùn)練AEM、TEM、ICM,輸出各個模型語音情感的概率分布.之后使用決策樹作為二級分類器,將各個模型輸出的分類概率作為新的輸入數(shù)據(jù),通過二級分類器得到一個最終的情感分類.具體如圖4所示.
整體模型使用5折交叉驗證.首先將原始數(shù)據(jù)按照4∶1的比例分成訓(xùn)練數(shù)據(jù)dr和測試數(shù)據(jù)de.同時將dr均分為5份,訓(xùn)練AEM時,從5折交叉驗證數(shù)據(jù)dr中取出其中4折作為訓(xùn)練數(shù)據(jù)dra,其余1折作為測試數(shù)據(jù)dea.
每一次的交叉驗證包含兩個過程:(1)基于dra訓(xùn)練語音編碼模型AEM;(2)利用訓(xùn)練好的模型AEM對dea進行預(yù)測.第1次交叉驗證完成后得到關(guān)于dea的預(yù)測值a1.之后使用該模型對原始數(shù)據(jù)中的測試數(shù)據(jù)de進行預(yù)測,獲取預(yù)測值b1.
5折交叉驗證后,即完成對語音編碼模型的整個訓(xùn)練及測試步驟后,可以得到預(yù)測值ak(k=1,2,3,4,5)和bk(k=1,2,3,4,5).其中ak就是對原來整個dr的預(yù)測值,將它們拼湊起來,形成一個含有m個元素的列向量,記為A1,m為dr樣本總數(shù).而對于bk這部分數(shù)據(jù),將各部分相加取平均值,得到一個含有l(wèi)個元素的列向量,記為B1,l為de樣本總數(shù).
對TEM和ICM同時進行上述步驟得到T1、I1、B2和B3.A1、T1、I1并列合并得到一個m行3列的矩陣作為二級分類器的訓(xùn)練數(shù)據(jù)drs,B1、B2、B3并列合并得到一個l行3列的矩陣作為二級分類器的測試數(shù)據(jù)des.最后利用drs訓(xùn)練決策樹,得出des的預(yù)測值,即為最終的語音情感分類結(jié)果.
使用IEMOCAP[16]數(shù)據(jù)集來評估模型.IEMOCAP情感數(shù)據(jù)集由南加利福尼亞大學(xué)錄制,共包含5個會話,每個會話由一對男女一起演繹,表演情感劇本以及即興的場景.數(shù)據(jù)集時長近12 h,包括視頻、語音和文本,共包含10 039句話語,每句話平均時長為4.5 s,由至少3個標注者使用分類標簽對其進行標注.數(shù)據(jù)集一共含有9種情感,分別是生氣、高興、興奮、悲傷、沮喪、害怕、驚訝、其他和中性.為了將實驗結(jié)果與近期語音情感分類成果作對比,選擇與他們實驗應(yīng)用同樣的5種情感數(shù)據(jù),包括生氣、高興、興奮、悲傷和中性,并將高興和興奮情緒的數(shù)據(jù)都歸為高興類,故最終應(yīng)用的數(shù)據(jù)集共5 531個句子,包含生氣、高興、悲傷和中性4種情感.
在語音識別領(lǐng)域中最常用的語音特征就是MFCC,該系數(shù)主要用于提取語音數(shù)據(jù)特征和降低運算維度.對連續(xù)語音數(shù)據(jù)進行預(yù)加重、分幀、加窗、快速傅里葉變換等操作后獲取39維MFCC特征.為了包含更多的語音特征信息,使用了目標語音的韻律特征作為判斷依據(jù)之一.韻律特征是對比性特征,因此它們的相對變化幅度為主要關(guān)注點.包含不同情感的語音在韻律特征上表現(xiàn)不同.選取包括諧波特征、響度輪廓、F0過零率在內(nèi)的35個韻律特征.圖5為含有高興情感和悲傷情感的語音信號諧波特征,圖6為二者的語音能量特征,也就是響度,使用均方根誤差(root-mean-square error,RMSE)來量化此特征.上述語音特征都使用OpenSMILE工具包[17]提取.
為了將文本信息注入文本編碼模型,使用自然語言工具包(natural language toolkit,NLTK)對文本信息進行標記,之后通過Glove轉(zhuǎn)換詞向量,每個詞向量都包含上下文含義,維度為300.
頻譜分類模型的輸入為圖像,首先利用librosa 工具將每段語音信號轉(zhuǎn)換為梅爾頻譜圖,為了方便圖像分類,去除了圖像橫、縱坐標軸,并為保證接下來模型訓(xùn)練過程圖像輸入數(shù)據(jù)和語音及文本保持一致,對圖像按照“編號+情感類別”的規(guī)則重命名.
由于語音數(shù)據(jù)的不均衡,整個實驗使用5折交叉驗證以便獲得模型穩(wěn)定的分類.在AEM和TEM中,采用GRU(隱藏層維度為200)作為編碼神經(jīng)網(wǎng)絡(luò).按照默認設(shè)置,以學(xué)習(xí)率0.001開始執(zhí)行1×104次,為防止過擬合,設(shè)置了早停,發(fā)現(xiàn)基本到50次迭代時損失值趨于穩(wěn)定,設(shè)置以20、30、50次迭代為界每次學(xué)習(xí)率縮小10%.為了使得模型收斂速度更快,使用WarmUp預(yù)熱學(xué)習(xí)率方式,設(shè)置預(yù)熱迭代次數(shù)為5.頻譜圖分類模型中使用ResNet-50(輸出特征維度為4)預(yù)訓(xùn)練模型作為圖像編碼器.
在訓(xùn)練完整權(quán)重分類模型過程中為了判定實際輸出與期望輸出的接近程度,通常使用交叉熵函數(shù).交叉熵刻畫的是實際輸出(概率)與期望輸出(概率)的距離,即交叉熵的值越小,兩個概率分布就越接近.普通交叉熵計算公式如下:
(2)
然而語音情感數(shù)據(jù)集存在分類不平衡問題,為了減少數(shù)據(jù)分類不平衡問題的影響,引入了補充交叉熵,該交叉熵不同于普通交叉熵的地方在于訓(xùn)練過程中均衡地抑制了不正確分類的softmax概率,該方法不需要額外增加少數(shù)類別樣本.
引入補充交叉熵后交叉熵具體定義如圖7所示.
補充交叉熵為
(3)
加上調(diào)節(jié)因子后
(4)
最終交叉熵形式為
(5)
為了驗證權(quán)重模型的優(yōu)越性,基于AEM、TEM和ICM進行了集成學(xué)習(xí)實驗,使用決策樹作為二級分類器,具體實驗方法見1.2.
(1)正確率(accuracy)
該指標表示語音信號情感分類中正負樣本被正確分類的比例.
(2)精確率(precision)
該指標是針對語音情感預(yù)測結(jié)果而言的,表示預(yù)測為正的樣本中實際為正樣本所占的比例.
(3)召回率(recall)
該指標是針對語音情感原始標簽而言的,表示語音信號樣本中的正類有多少被預(yù)測正確了.
(4)F分數(shù)(F-score)
由于精確率和召回率往往成反比關(guān)系,也就是說提高精確率,召回率一般情況下會降低.F分數(shù)的目標就是為了平衡二者,綜合考慮二者的調(diào)和值.
將權(quán)重分類模型分別與單一特征模型、應(yīng)用集成學(xué)習(xí)方法模型的效果作比較,并且和近年來同樣在IEMOCAP數(shù)據(jù)集上實現(xiàn)語音情感分類的模型進行比較.
將所有語音、文本、圖像數(shù)據(jù)按8∶0.5∶1.5的比例分為訓(xùn)練集、驗證集和測試集.使用5折交叉驗證訓(xùn)練模型.從表1可以看出,使用相同的數(shù)據(jù)集,多模式權(quán)重模型分類結(jié)果按照不同的評估準則,要么優(yōu)于現(xiàn)有的文本語音特征結(jié)合的分類模型,要么與該模型結(jié)果相當.6個模型4類情感分類結(jié)果的正確率和混淆矩陣分別見圖8、9.為了進一步證明實驗方法的有效性,本文與現(xiàn)有模型CNN-LSTM+CNN[18]、CNN-BiLSTM-Attention[19]、Multi-Level Multi-Head Fusion Attention+RNN[20]進行比較,如表2所示.具體結(jié)果分析如下:
表1 6種模型識別結(jié)果
表2 與以往基于IEMOCAP結(jié)果的比較
(1)僅AEM用于語音情感分類
AEM模型整體分類正確率為58.8%,僅有過半的數(shù)據(jù)分類準確.從該模型的混淆矩陣中可以看出有29.29%含有高興情緒的語音數(shù)據(jù)被錯誤地分類為中性情感,而對于悲傷情感的區(qū)分正確率高達89.44%.含悲傷情感的語音在聲音特征上較其他情感辨識度更高.
(2)僅TEM用于語音情感分類
TEM模型較AEM模型分類正確率有了質(zhì)的提高,正確率突破70%,并且各種情感分類正確率都超過65%,高興情感的區(qū)分正確率也上升到79.50%,比AEM模型中高興情感分類正確率提高了近40%,這一結(jié)果歸因于表達快樂和中性情感的詞語比起聲學(xué)信號數(shù)據(jù)中的表達,在文本差異上更加明顯,同時也證明了文本和語音在判別情感的過程中起到互補作用.出乎意料的是,有13.38%的含有悲傷情緒的語音被錯誤地劃分在了高興類別中,這是兩種近乎完全相反表達的情感.
(3)僅ICM用于語音情感分類
或許是由于語音數(shù)據(jù)集相比純用于圖像分類的圖像數(shù)據(jù)來講數(shù)量上遠遠不夠,ICM無法充分學(xué)習(xí)每一類語音信號的頻譜圖像特征,致使頻譜圖分類效果并未達到預(yù)期,正確率僅為38.9%,其中最易混淆的是悲傷情感和中性情感,61.50%的中性情感語音數(shù)據(jù)被錯誤地歸為悲傷情感分類,同時71.13%的悲傷情感語音數(shù)據(jù)被錯誤地歸為中性情感分類.
(4)使用ENSELM用于語音情感分類
利用傳統(tǒng)的集成學(xué)習(xí)方法將單一模型輸出的分類概率通過一個二級分類器重新獲得分類結(jié)果,從該模型的混淆矩陣來看,含有生氣情感的語音類別識別率有所提高,超過了70%,然而其他3個分類結(jié)果較文本編碼分類模型偏弱,中性情感的分類正確率僅為55.66%.總體來看,該模型的分類正確率僅為64.9%.一般來講,綜合模型的分類結(jié)果應(yīng)優(yōu)于單一模型的結(jié)果,但由于基于集成學(xué)習(xí)方法的分類模型在初期數(shù)據(jù)處理方式有很大不同,一級分類模型各自訓(xùn)練時,首先將訓(xùn)練數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),大大減少了訓(xùn)練數(shù)據(jù)的數(shù)量,由此可能導(dǎo)致分類正確率變低.
(5)使用MWEM、MWEM-C用于語音情感分類
該模型結(jié)合了先前AEM、TEM、ICM 3個模型的特性,并且利用權(quán)重網(wǎng)絡(luò),自動學(xué)習(xí)三者的權(quán)重比值,彌補了各個模型的缺陷,放大了各個模型優(yōu)勢,使分類結(jié)果更加準確.使用普通交叉熵分類模型MWEM和使用補充交叉熵的權(quán)重分類模型MWEM-C與以往基于IEMOCAP情感識別模型結(jié)果相比,正確率有了很大提升,混淆矩陣的混亂程度大大減輕.并且MWEM-C對于每一類別情感的識別正確率都超過了74%,其中對高興情感的識別正確率高達82.01%,這大大優(yōu)于現(xiàn)有模型分類結(jié)果.
語音情感識別研究中,有效特征的選取以及使用單一特征的模型往往不能達到很好的分類效果是研究過程中兩個重要挑戰(zhàn).本文提出了一種基于深度學(xué)習(xí)的多模式權(quán)重網(wǎng)絡(luò)模型用于語音情感識別,該模型提取語音的聲學(xué)特征、語音轉(zhuǎn)化成文本后的語義特征、語音頻譜特征后,不是簡單地將其拼接融合,而是通過網(wǎng)絡(luò)學(xué)習(xí)自動有效地賦予三者不同的權(quán)重,保留了全局信息和局部信息,特征更全面,識別效果更好.MWEM在4種情感分類正確率上達到75%,與單一特征分類模型以及應(yīng)用集成學(xué)習(xí)方法實現(xiàn)情感分類模型相比分類性能顯著提高,同時實驗結(jié)果也證明了MWEM在IEMOCAP數(shù)據(jù)集上實現(xiàn)了很好的語音情感分類效果.
鑒于原模型中頻譜圖分類效果弱,在未來的工作中,將在頻譜圖分類方面進行優(yōu)化,尋找更加適合的網(wǎng)絡(luò)模型,同時對圖像數(shù)據(jù)做增強處理,突出各類別頻譜圖的特性,從而進一步優(yōu)化權(quán)重網(wǎng)絡(luò)模型.