楊京寶 高恩錄 劉 揚 陳 庚 王慶越 夏玉琦 趙 振
(1.青島淄柴博洋柴油機股份有限公司 青島 266701)(2.青島科技大學信息科學技術(shù)學院 青島 266061)
語音信號是人類生活中認知溝通的重要信息載體,它不僅包含語義信息,還攜帶著說話者的情感狀態(tài)。隨著計算機處理能力的進一步提高和對智能生活需求的增長,語音情感識別(Speech Emotion Recognition,SER)已成為人們生活中不可或缺的一部分[1],具有廣泛的應用場景,包括人工服務[2]、遠程教育[3]和醫(yī)療援助[4]等。然而,由于語音的多樣性和情感表達的復雜性,提高情感識別準確度仍是一個亟待解決的難題。
基于傳統(tǒng)機器學習方法的語音情感識別模型,如隱馬爾可夫模型[5]、高斯混合模型[6]和決策樹[7]等,在以往的研究中被廣泛用于情感識別的特征提取。然而,傳統(tǒng)的情感識別方法面對規(guī)模龐大的訓練據(jù)集時難以實施,且由于語音中包含多種情感狀態(tài),從而導致模型訓練計算量大,情感狀態(tài)分類困難,最終導致整體識別率較低。
近年來,深度神經(jīng)網(wǎng)絡在SER的特征提取方面表現(xiàn)出了突出的性能。與傳統(tǒng)的語音情感識別方法相比,深度神經(jīng)網(wǎng)絡能夠通過監(jiān)督學習從大量的訓練樣本中提取語音情感的高級特征表示,例如Tursunov[8]等采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)從語譜圖中學習的語音情感特征,并在基準測試數(shù)據(jù)集上取得了優(yōu)異的語音情感識別效果;盧艷[9]等采用遞歸神經(jīng)網(wǎng)絡(Long Short-Term Memory Network,LSTM)提取了語音情感特征的隨機時間關(guān)系和情感特征的不確定性,從而顯著提高了SER的準確性;梁宗林[10]等引入卷積遞歸神經(jīng)網(wǎng)絡(Convolutional Recurrent Neural Network,CRNN)捕獲原始音頻中上下文情感特征的最優(yōu)表示,在IEMOCAP 數(shù)據(jù)集上取得了良好的識別效果。盡管深度神經(jīng)網(wǎng)絡在SER 領(lǐng)域取得了巨大的成功,然而上述模型均使用個性化特征作為輸入,對于特定的說話者取得了良好的語音情感識別效果,但是忽略了不同說話人、說話內(nèi)容和環(huán)境中的共同情緒信息。此外,由于性別差異,語音情感特征在變化過程中所體現(xiàn)出的情感信息也不盡相同[11]。上述問題阻礙了SER 技術(shù)在說話者獨立環(huán)境中的實際應用。
因此本文提出了一種融合級聯(lián)注意力機制(Cascading Attention Mechanisms,CAM)和多任務學習(Multi-task Learning,MTL)語音情感識別方法。首先,提取Log-Mel 特征及其一階差分和二階差分特征,并進一步提取時頻方向的非個性化情感特征,以學習語音情感的變化過程;然后,通過由通道注意力、空間注意力和自注意力組成的級聯(lián)注意力網(wǎng)絡篩選顯著的情感特征,并學習情感特征之間的相互依賴關(guān)系,同時關(guān)注情感特征對通道和空間的不同貢獻。最后,引入了一種多任務學習策略[12~16],將說話人性別識別(Speech Gender Recognition,SGR)與語音情感識別任務相結(jié)合,減少了由于性別的差異對情感識別的影響。實驗結(jié)果表明,本文方法在IEMOCAP 數(shù)據(jù)集上的加權(quán)精度(Weighted Accuracy,WA)和非加權(quán)精度(Unweighted Accuracy,UA)分別達到79.39%和76.76%。
如圖1 所示,本文提出的融合CAM-MTL 的語音情感識別模型主要處理流程如下。首先,提取非個性化特征,以反映情感特征在時頻方向上的變化過程。然后,引入級聯(lián)注意力網(wǎng)絡,獲得非個性化特征中最顯著的情感特征。最后,采用多任務學習策略減少對不同說話者性別的感知差異的影響。
圖1 融合級聯(lián)注意力機制的多任務語音情感識別的模型結(jié)構(gòu)
為了有效地學習語音情感發(fā)生變化的過程,本文在時頻方向上提取了非個性化特征,如圖1 所示。首先,對給定的語音信號進行零均值和單位方差的歸一化操作,并按照25 ms 的幀移和10 ms 的幀長進行分幀操作;然后,利用離散傅里葉變換(Discrete Fourier Transform,DFT)計算每一幀語音信號的功率譜;之后,通過Mel 濾波器組計算獲得輸出pi,其中i為Mel濾波器組的序號;最后,通過式(1)~(3)獲得Log-Mel特征mi、一階差分特征mdi和二階差分特征,并按照通道方向組合形成三維特征表示(3D Log-Mels)。
式中,N是用于計算3D Log-Mels 特征的連續(xù)幀數(shù),n為時間幀的長度。
進一步,使用時間方向卷積濾波器(Conv1a)從3D Log-Mels 中提取特征Ftime,減少時間跨度對語音情感的影響。同時,通過頻率方向的濾波器(Conv1b)提取特征Ffreq,減少頻率跨度對語音情感的影響。然后,將Ftime和Ffreq沿通道方向合并,得到三維時頻特征Fin,如式(4)所示。最后,將Fin輸入CNN 層,提取目標非個性化語音情感特征Fout∈RC*H*W,其中,C、H和W分別表示信道數(shù)、頻率采樣點數(shù)和幀數(shù)。具體計算過程如下:
式中:Concat是沿著通道方向的川里操作。f表示卷積操作。Wk和bk是的第k個卷積濾波器的可訓練參數(shù)。
為了能從復雜的語音中區(qū)分出有效的目標特征,需要聚焦語音中的關(guān)鍵情感特征,從而增加不同情感特征之間的判別性。因此,本文引入級聯(lián)注意力網(wǎng)絡,采用通道注意力及空間注意力實現(xiàn)語音情感特征的定位,利用CNN-BLSTM 提取語音的句子級情感特征,使用自注意力有效應對不同通道語音情感變化的影響,減少對外部信息的依賴。
通道注意力:通道注意力通過壓縮和聚合操作,提取出每個通道中最顯著的語音情感特征。
首先,通過全局平均池化aPoolsp和全局最大池化mPoolsp生成壓縮通道平均描述符和通道最大描述符。然后,通過MLP 對和進行聚合計算。最后,將和映射到原始信道上,通過兩個全連接層獲得通道權(quán)重輸出FM'∈RC*1*1。通道注意力計算方式如下:
式中:σ為sigmod 函數(shù),W0和W1∈RC*C為權(quán)重參數(shù)。最終,通道注意力的輸出表示如下:
空間注意力:空間注意力作為通道注意力的補充,能夠使得具有強烈情感特征的通道更為突出而抑制情感無關(guān)通道。
首先,通過平均池化和最大池化從FM'∈RC*1*1中提取空間平均特征描述符和空間最大特征描述符,有效地建立特征與空間之間的映射關(guān)系。然后,對和按照通道方向合并后,采用卷積核f大小為7×7進行卷積計算生成空間特征描述符。最后,通過sigmod函數(shù)處理獲得情感特征??臻g注意力的計算方法如下:
式中:σ為sigmod 函數(shù),aPool和mPool為平均池化和最大池化,f7×7表示與濾波器大小為7×7的卷積操作。最終,空間注意力的輸出表示如下:
CNN-BLSTM:語音情感的當前狀態(tài)不僅與過去的狀態(tài)有關(guān),而且還與未來的狀態(tài)有關(guān)。因此,本文使用CNN-BLSTM 學習句子級別的情感。首先,為了保持顯著的情感信息,減少語音序列的長度,采用尺寸為1×n卷積核對空間時間注意的輸出進行卷積計算,其中1 是步幅大小,n是窗口大小,并生成一個向量序列Hcnn=,其中?clnn∈Rcnn。其次,為了從語音序列中提取全局上下文信息,以Hcnn作為BLSTM 的輸入,輸出一系列隱藏狀態(tài)Hblstm=,其中Hblstm∈Rl*d為第l個前向隱藏狀態(tài)和第l個后向隱藏狀態(tài)。l為幀的序列號,d為BLSTM隱藏層的大小。
自注意力:為了有效地應對不同通道語音情感變化的影響,減少對外部信息的依賴,首先輸入隱藏狀態(tài)Hblstm,接著計算注意力權(quán)值α。最后,將加權(quán)后的特征值連接,得到最終的編碼向量Oself=[oemotion,ogender],其中,oemotion∈R1*4為情感類別任務輸出的編碼向量,ogender∈R1*2為性別分類任務輸出的編碼向量。具體計算過程如下:
式中:Wl和bl為可訓練的參數(shù)。
本文將性別分類與情感分類任務融合,通過并行學習使結(jié)果相互影響。兩個任務共享輸入層和隱藏層的全部參數(shù),通過兩個輸出層分別輸出情感和性別分類結(jié)果,并通過以下目標函數(shù)對模型進行訓練:
式中:yemotion和ygender分別為情感分類與性別分類的標簽的編碼向量。
為了評估出的模型的性能,本文在交互式情感二元運動捕獲數(shù)據(jù)庫(IEMOCAP)[17]上開展了驗證實驗。該語音數(shù)據(jù)集包括五個部分,每個部分由一對演講者(女性和男性)以腳本和即興的場景錄制,樣本平均持續(xù)時間為4.5s,采樣率為16kHz。
本文實驗使用了四種情感類別的5531 個句子:快樂(1636 個句子,與興奮合并)、憤怒(1103 個句子)、悲傷(1084個句子)和中性(1708個句子)。
本實驗優(yōu)化器采用Adam,學習率初始設置為0.001,在第80、120、160 輪分別減小10 倍,batchsize設置為32,epoch 設置為200,訓練集、測試集及驗證集的比例為8∶1∶1。
對于簡單的索賠事項,監(jiān)理工程師一般在收到報告的1個月之內(nèi)給出處理意見。但在實際施工中,難免會有個別索賠出現(xiàn)爭議。索賠發(fā)生爭議時,當事人雙方應本著合作共贏的態(tài)度去協(xié)商談判,不要急于采用訴訟或仲裁的方式。在該案中,承包商考慮到未來還要在當?shù)亻L期發(fā)展,需要維護自己的商業(yè)信譽,所以一直堅持采用協(xié)商的方式解決索賠,多次談判之后,承包商在費用方面作出了一些讓步,最終以76萬元了結(jié)了該爭議。
訓練集和測試集通過訓練集的全局平均值和標準差進行歸一化,在特征提取步驟中,樣本按照幀長25ms 和幀移10ms 進行統(tǒng)一分幀。為了更好地進行并行加速,本文將有幀的樣本分割成300 幀等長片段,對于少于300 幀的片段進行零填充。經(jīng)過分割后,語音片段總數(shù)為14521 個,如表1 和表2所示。
表1 不同情感的分割前后的句子數(shù)量
表2 不同性別的分割前后的句子數(shù)量
為了驗證本文模型的有效性,本文采用加權(quán)精度(WA)和未加權(quán)精度(UA)作為實驗評價指標,對不同模型的實驗結(jié)果進行評估。
如圖2 所示,為了驗證式(13)中不同情感損失占比β對多任務學習結(jié)果的影響開展權(quán)重選擇實驗。隨著情感損失的提高,WA 和UA 隨之提高,并在情感損失占比為0.8時達到頂峰,當β超過0.8時,語音情感分類準確率重新歸于平穩(wěn)。因此本文中的β設置為0.8。
圖2 不同β對WA和UA的影響
如表3 所示,為了驗證本文提出的方法的有效性,將其與目前IEMOCAP上的先進模型進行比較,對比方法的訓練集和測試集配置與本文方法一致。
表3 本文方法與6種先進方法對比實驗結(jié)果
Han[18]等通過DNN-ELM 網(wǎng)絡提取了情感特征,然而此方法無法捕捉到情感特征的長時依賴關(guān)系和變化過程。為了解決這個問題,Lee[19]等提出RNN-ELM 網(wǎng)絡學習語音情感特征的長期依賴關(guān)系。為了捕捉情感特征的變化過程,Chen[20]等提出了提3D ACRNN 網(wǎng)絡,并使用了由Log-Mel 靜態(tài)、Deltas和Deltas-Deltas組成的三維差分特征來有效反映情感的變化過程。Li[21]等使用了基于時間和頻率方向的特征更有效地表達情緒特征。Wu[22]等為了獲得不同空間中集中表達情感信息的位置,使用膠囊網(wǎng)絡(Capsule Network)獲得了有效的語音情感特征的空間信息表征。盡管如此,上述方法忽略了說話人性別造成的影響。Li[11]等利用基于自注意機制的SER框架,并將說話人性別識別作為一個輔助任務來調(diào)整情感識別以提高SER的準確性。
與性能最好的方法相比,本文提出的方法的WA 和UA 分別提高了1.24%和1.11%。本文方法通過將性別分類與情感分類任務融合,通過參數(shù)共享,能夠有效地檢測出高層次的辨別性表征,解決不同性別之間信號差異所帶來的影響,從而提升了情感識別的準確率。
4.3.1 級聯(lián)注意力消融實驗
級聯(lián)注意力消融實驗的設置如下:(S1-1)本文方法;(S1-2)AM-MTL:將CAM 替換為空間注意力和自注意力的組合,以驗證通道注意力對模型性能的貢獻;(S1-3)CM-MTL:將CAM 替換為通道注意力和自注意力的組合,以驗證空間注意力對模型性能的貢獻;(S1-4)CA-MTL:將CAM 替換為通道空間注意力,以驗證自注意力對模型性能的貢獻。
首先,為了驗證通道注意力在本文方法中的有效性,本文對比了S1-1 和S1-2。表4 的實驗結(jié)果表明,S1-1 的WA 和UA 比S1-2 的分別提高了1.95%和1.88%。通道注意力作為特征選擇器,實現(xiàn)通道內(nèi)特征的篩選,提取更為重要的語音情感特征,能夠顯著地提高語音情感識別的效果。
表4 級聯(lián)注意力消融實驗結(jié)果
其次,為了驗證空間注意力在本方法中的有效性,本文對比了S1-1 和S1-3。 表4 的實驗結(jié)果表明,S1-1 的WA 和UA 分別比S1-3 提高了1.30%和2.21%??臻g注意力通過對比不同通道特征,增強了不同通道特征之間的判別性,獲取了通道所能表達的情感特征的優(yōu)先級。
最后,為了驗證自注意力在本方法中有效性,本文對比S1-1 和S1-4。表4 的實驗結(jié)果表明,S1-1 的WA 和UA 分別比S1-4 提高了1.75%和1.23%。自注意力能夠?qū)Σ煌捳Z特征進行加權(quán)打分,有效應對不同通道語音情感變化的影響,減少對外部信息的依賴。
4.3.2 級聯(lián)注意力特征可視化分析
為了直觀地理解通道空間注意力的影響,本文隨機選擇了一個樣本,并將其作為通道空間注意的特征圖進行可視化展示。對于該樣本,可視化了四種圖片。圖3(a)為原始Mel譜圖;圖3(b)為通過通道注意力的特征圖;圖3(c)為通過空間注意力的特征圖;圖3(d)為通過通道空間注意力的特征圖。圖3顯示了語音情感特征可視化結(jié)果。
圖3 級聯(lián)注意力特征可視化結(jié)果
強調(diào)重要領(lǐng)域:將圖3(b)和(c)與原始Mel 譜圖(a)進行對比,通道注意力和空間注意力有效地突出存在隱藏情感信息的語音部分,如圖中的共振峰區(qū)域。同時,與對應的原始Mel 譜圖的相比較,共振峰之間的淺色區(qū)域基本被去除,使得情感信息豐富更加突出,通道空間注意力的融合增強了突出含有情感特征的語音表達的能力。
抑制其他區(qū)域:在日常生活環(huán)境中,語音錄制過程中經(jīng)常會出現(xiàn)突發(fā)噪聲,如咳嗽、碰撞等噪聲,這些噪聲在語音Mel 譜上通常有很強的強度。將圖3(d)與相應的原始語音Mel 譜圖相比較,語音中的無聲區(qū)域(圖中的共振峰之間的淺色區(qū)域)基本被去除,而原始語音中情感較強的區(qū)域(圖中的共振峰所在的深色區(qū)域)被保留。這證明了通道空間注意力可以極大地抑制與情感無關(guān)的區(qū)域。
4.3.3 多任務學習消融實驗
多任務學習消融實驗的設置如下:(S2-1)本文提出的方法;(S2-2)CAM:將說話人性別識別刪除,驗證多任務學習對模型性能的貢獻。
對比S2-1 和S2-2 驗證多任務學習在本方法中有效性,由表5 可知,在性別識別的輔助下,本文提出方法的WA 和UA 分別比S2-2提高了1.95%和2.08%。以性別識別作為情感識別的輔助任務,弱了不同性別在語音情感表達上的內(nèi)在差異,減少了由于不同性別導致分類錯誤,因此提高了模型的情感分類能力。
表5 多任務學習消融實驗結(jié)果
本文提出了一種融合級聯(lián)注意力機制的多任務語音情感識別方法解決非個性化特征提取問題。首先提取時頻方向的3D Log-Mels特征以反映情感特征的變化過程,同時解決情感特征混淆問題;然后通過由通道注意力、空間注意力及自注意力組成的級聯(lián)注意力網(wǎng)絡,增強非個性化特征中情感顯著區(qū)域,抑制情感無關(guān)區(qū)域,最后通過多任務學習策略,融合說話人性別識別任務輔助說話人情感識別任務,提升情感識別的準確率。實驗結(jié)果表明,在IEMOCAP數(shù)據(jù)集中,本模型與最先進的方法相比WA 和UA 分別提高了1.24%和1.11%,能夠有效地提升語音情感識別的準確率。