李茜茜,沈曉燕,任福繼,康鑫
(1. 南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019; 2. 日本德島大學(xué) 智能信息工學(xué)部,日本 德島 7708501)
語(yǔ)音情感識(shí)別是人工智能的一個(gè)重大研究領(lǐng)域。人機(jī)交互中,語(yǔ)音是最直接的交流方式,對(duì)人的情感和認(rèn)知的研究是人工智能的一個(gè)質(zhì)的進(jìn)步。語(yǔ)音情感識(shí)別是利用計(jì)算機(jī)對(duì)輸入語(yǔ)音的情緒狀態(tài)進(jìn)行自動(dòng)化識(shí)別。它在心理健康監(jiān)測(cè)、教育輔助、個(gè)性化內(nèi)容推薦、客戶服務(wù)質(zhì)量監(jiān)測(cè)等領(lǐng)域具有廣闊的應(yīng)用前景。
目前的語(yǔ)音情感識(shí)別主要由以下幾個(gè)過(guò)程構(gòu)成:預(yù)處理、特征提取和情感分類(lèi)。預(yù)處理方面的研究主要集中在數(shù)據(jù)庫(kù)的處理和降噪等方面。當(dāng)使用機(jī)器學(xué)習(xí)進(jìn)行語(yǔ)音情感識(shí)別時(shí),經(jīng)常需要大量的訓(xùn)練數(shù)據(jù),若數(shù)據(jù)集太少,則會(huì)出現(xiàn)過(guò)擬合的缺陷。為了能夠在小樣本數(shù)據(jù)集上進(jìn)行算法的訓(xùn)練識(shí)別,對(duì)樣本引進(jìn)增強(qiáng)變換,增加樣本數(shù)據(jù)量[1],可以達(dá)到提高識(shí)別率的目的。Chatziagapi等[2]使用生成對(duì)抗性網(wǎng)絡(luò)(generative adversarial nets, GANs)生成聲譜圖,對(duì)原有的樣本進(jìn)行數(shù)據(jù)增強(qiáng),在IEMOCAP和FEEL-25k情感數(shù)據(jù)庫(kù)上得到的未加權(quán)平均召回率為53.6%和54.6%。語(yǔ)音樣本中夾雜著混響和附加噪聲,這對(duì)語(yǔ)音情感識(shí)別的性能有不利影響。在預(yù)處理階段,減少或消除混響和加性噪聲稱(chēng)為去噪,也稱(chēng)為語(yǔ)音增強(qiáng)[3]。任福繼等[4]在2016年提出了一種通過(guò)人工修改標(biāo)簽和降低噪音來(lái)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理的方法。川瀨友子等[5]提出了一種自動(dòng)切換降噪?yún)?shù)的方法,使得自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確率最大化。然而,大多數(shù)的去噪方法都不能很好地濾除噪音,因?yàn)樾旁氡群头逯敌旁氡忍?。由于不可能?duì)這種高噪聲數(shù)據(jù)進(jìn)行完全去噪,Yousefi等[6]提出采用增強(qiáng)方法來(lái)提高數(shù)據(jù)質(zhì)量。但是語(yǔ)音情感識(shí)別領(lǐng)域中,使用數(shù)據(jù)增強(qiáng)方法來(lái)提高識(shí)別率的研究較少,多被用于圖像識(shí)別。
與特征提取方面相關(guān)的研究有特征選擇和特征融合等。Reda Elbarougy等[7]認(rèn)為,在提取情感特征時(shí),應(yīng)該考慮聲學(xué)特征和情感狀態(tài)之間的相關(guān)性。在語(yǔ)音情感識(shí)別中,特征選擇是提高識(shí)別準(zhǔn)確率的重要步驟。從語(yǔ)音信號(hào)中可以提取出多個(gè)特征,然而哪一組特征與說(shuō)話人的情緒狀態(tài)最相關(guān)還在研究中。到目前為止,與情緒狀態(tài)相關(guān)的特征少之又少。關(guān)于情感識(shí)別分類(lèi)階段,也有不少研究者提出了各種情感分類(lèi)算法,并推陳出新。Karttikeya等[8]提出了2種監(jiān)督式學(xué)習(xí)的語(yǔ)音情感識(shí)別方法,但是由于訓(xùn)練樣本稀少,在IEMOCAP語(yǔ)料庫(kù)的識(shí)別率只達(dá)到了69.1%。
本文針對(duì)語(yǔ)音樣本不足和現(xiàn)階段語(yǔ)音情感識(shí)別提取的無(wú)關(guān)特征多的問(wèn)題,提出了面向數(shù)據(jù)增強(qiáng)的語(yǔ)音情感識(shí)別方法。
本節(jié)介紹了一種面向數(shù)據(jù)增強(qiáng)的語(yǔ)音情感識(shí)別方法,其系統(tǒng)總體結(jié)構(gòu)如圖1所示。系統(tǒng)包括預(yù)處理、特征提取與分類(lèi)識(shí)別3個(gè)過(guò)程。在預(yù)處理階段,原始數(shù)據(jù)集的聲音樣本首先經(jīng)過(guò)時(shí)域和頻域2個(gè)方向的數(shù)據(jù)增強(qiáng)形成新的樣本。新生成的樣本與原始的情感數(shù)據(jù)庫(kù)被一起送入特征提取部分。在特征提取過(guò)程,使用openSMILE2.3.0提取1 582維的情感特征和10組低級(jí)描述特征,然后按照訓(xùn)練和測(cè)試比例6:1的概率送入3種分類(lèi)算法模型中,最后對(duì)比得到每種情感的識(shí)別結(jié)果。
圖1 基于數(shù)據(jù)增強(qiáng)的語(yǔ)音情感識(shí)別系統(tǒng)Fig. 1 Speech emotion recognition system based on data enhancement
數(shù)據(jù)增強(qiáng)對(duì)解決數(shù)據(jù)過(guò)擬合問(wèn)題有極大的幫助,主要應(yīng)用于現(xiàn)在的圖像識(shí)別等領(lǐng)域,而在語(yǔ)音識(shí)別領(lǐng)域的數(shù)據(jù)增強(qiáng)方法甚少。它是指通過(guò)增大訓(xùn)練的數(shù)據(jù)集來(lái)充分利用已有的數(shù)據(jù)集,達(dá)到提高識(shí)別率的目的。目前圖像識(shí)別領(lǐng)域常用的數(shù)據(jù)增強(qiáng)方法有旋轉(zhuǎn)、翻轉(zhuǎn)變換、縮放變換、噪聲擾動(dòng)和尺度變換等。對(duì)原始數(shù)據(jù)庫(kù)的圖像進(jìn)行改變來(lái)增加數(shù)據(jù)庫(kù)樣本。Cubuk等[9]提出了一種自動(dòng)數(shù)據(jù)增強(qiáng)方法,使用搜索算法來(lái)尋找最佳策略,使得神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)數(shù)據(jù)集產(chǎn)生最高的驗(yàn)證精度,他們的方法在cifar-10、cifar-100、svhn和imagenet 上達(dá)到了最高精度,其中在imagenet 的數(shù)據(jù)集獲得了83.5% 的準(zhǔn)確率。
圖2 男性與女性聲調(diào)頻率范圍Fig. 2 Male and female tone frequency range
2.1.1 基于時(shí)域的數(shù)據(jù)增強(qiáng)方法
信號(hào)在時(shí)域上的N次抽取,也稱(chēng)為采樣率壓縮,會(huì)導(dǎo)致原始序列頻譜的N倍擴(kuò)展;信號(hào)在時(shí)域上的P次插值,也稱(chēng)為采樣率擴(kuò)張,會(huì)導(dǎo)致原始序列頻譜的P倍壓縮。將抽取和插值結(jié)合起來(lái),可以實(shí)現(xiàn)信號(hào)頻率的N/P倍變換,當(dāng)N>P時(shí),頻率升高;當(dāng)N<P時(shí),頻率降低。時(shí)域信號(hào)的N次抽取原理如圖3所示,設(shè)x(n) 為原始樣本信號(hào),經(jīng)過(guò)N次抽取后生成為xn(n),那么xn(n)=x(Nn)。x(n) 的 頻 譜 為X(ejω),N次 抽 取 后 頻 譜 展 寬 為Xn(ejω)。經(jīng)過(guò)N次抽取變換后,頻譜展寬。
圖3 時(shí)域信號(hào)的N次抽取Fig. 3N-times extraction of time domain signals
同理,時(shí)域信號(hào)的P次插值如圖4所示。x(n)為原始樣本信號(hào),經(jīng)過(guò)P次插值生成xc(n)。然而,進(jìn)行抽取時(shí),原始信號(hào)的頻譜被周期拓展,如果原始信號(hào)最高頻率大于抽取之后采樣率的一半就會(huì)發(fā)生混疊(如果是復(fù)信號(hào),則信號(hào)最高頻率大于抽取之后采樣率就會(huì)發(fā)生混疊)。h(n) 為防混疊濾波器。一般是先進(jìn)行插值再進(jìn)行抽取,以免造成頻率混疊。x(n) 經(jīng)過(guò)P次插值后生成信號(hào)xp(n)。 其 頻 譜X(ejω) 相 對(duì) 應(yīng) 的 變 換 為XP(ejω)。根據(jù)圖5,抽取和插值可以實(shí)現(xiàn)信號(hào)頻率的變換。選擇合適的P和N,就能改變采樣率。聲音信號(hào)經(jīng)過(guò)時(shí)域上的抽取和插值,改變了原始信號(hào)的頻率。在此基礎(chǔ)上,可以改變男性聲調(diào)和女性聲調(diào)的基本頻率,達(dá)到男性聲音和女性聲音轉(zhuǎn)換的目的。
2.1.2 基于頻域的數(shù)據(jù)增強(qiáng)方法
頻域變換的目的是改變?cè)悸曇魳颖镜念l譜,使男女聲音互換?;粽{(diào)整可以看作是頻率的一種音階變換。因?yàn)橐粽{(diào)的高低是由頻率決定的。頻率越高,音調(diào)就越高。通過(guò)對(duì)信號(hào)進(jìn)行快速傅里葉變換(fast fourier transformation, FFT),可以在頻域內(nèi)進(jìn)行變換,將整個(gè)頻譜向左或向右移動(dòng)100 Hz。然后進(jìn)行反向快速傅里葉變換(inverse fast fourier transformation, IFFT)將音高返回到時(shí)間域。男聲和女聲的基本頻率可以通過(guò)左右變換來(lái)改變,從而實(shí)現(xiàn)男聲和女聲的轉(zhuǎn)換。
圖4 時(shí)域信號(hào)的P次插值Fig. 4P-times interpolation of time domain signals
圖5 時(shí)域信號(hào)的P/N次變換Fig. 5P/N-times transformation of time domain signals
2.1.3 數(shù)據(jù)增強(qiáng)前后的語(yǔ)譜圖比較
語(yǔ)譜圖是一種以二維的平面表達(dá)三維信息的語(yǔ)音信號(hào)頻譜圖。其橫軸代表時(shí)間,縱軸代表頻率,顏色的深淺代表語(yǔ)音信號(hào)的強(qiáng)弱。圖6(a)、(b)分別為未使用數(shù)據(jù)增強(qiáng)方法的樣本語(yǔ)譜圖和使用了數(shù)據(jù)增強(qiáng)后的樣本語(yǔ)譜圖。使用了數(shù)據(jù)增強(qiáng)后的語(yǔ)譜圖,顏色清晰,并未發(fā)現(xiàn)模糊或者樣本損壞的情況。
總之,無(wú)人機(jī)測(cè)繪技術(shù)目前已運(yùn)用到多個(gè)領(lǐng)域中,國(guó)家大力支持此技術(shù)的研究,鼓勵(lì)在民用領(lǐng)域中運(yùn)用,以發(fā)揮更大作用。在工程項(xiàng)目測(cè)量過(guò)程中,為了綜合了解整個(gè)工程項(xiàng)目的基本情況,完善工程規(guī)劃,使用無(wú)人機(jī)進(jìn)行測(cè)繪時(shí),監(jiān)測(cè)到的范圍和尺度也較大,具有極高的監(jiān)測(cè)效率,高空作業(yè)效果顯著,同時(shí)可與多項(xiàng)技術(shù)設(shè)備結(jié)合使用,大幅提高工程測(cè)量的質(zhì)量和效率。因此,在工程測(cè)量過(guò)程中,在復(fù)雜的環(huán)境下合理設(shè)置無(wú)人機(jī)基本參數(shù),定向分析采集數(shù)據(jù)信息,及時(shí)反饋高清圖像,確保工程測(cè)量中無(wú)人機(jī)測(cè)繪作業(yè)的安全性,可提高工程測(cè)量的效率。
圖6 相同樣本的語(yǔ)譜圖比較Fig. 6 Comparison of the spectrogram of same sample
本文使用openSMILE2.3.0提取了1 582維的情感特征,該特征集包含的1 582個(gè)特征是由34個(gè)低級(jí)描述特征和34個(gè)相應(yīng)的變量作為68個(gè)低級(jí)描述特征輪廓值,在此基礎(chǔ)上應(yīng)用21個(gè)函數(shù)得到1 428個(gè)特征,另外,對(duì)4個(gè)基于音高的低級(jí)描述特征及其4個(gè)變量系數(shù)應(yīng)用了19個(gè)函數(shù)得到152個(gè)特征,最后附加音高(偽音節(jié))的數(shù)量和總體輸入的持續(xù)時(shí)間(2個(gè)特征)。此外,還著重分析了10個(gè)低級(jí)描述符的情感識(shí)別率,主要包括:F0Final、F0finEnv、jitterDDp、jitterLocal、log-MelFreqBand、lsqFreq、pcm_fftMag_mfcc、pcm_loudness、shimmerLocal、voicingFinalUnclipped[11]。
在本節(jié)詳細(xì)介紹使用的3種機(jī)器學(xué)習(xí)分類(lèi)算法:支持向量機(jī)、隨機(jī)森林和K最鄰近(K- nearest neighbor)。
支持向量機(jī)是Vapnik等[12-14]在20世紀(jì)90年代提出的一種新的機(jī)器學(xué)習(xí)方法。它是一種廣義的線性分類(lèi)算法,對(duì)數(shù)據(jù)按監(jiān)督式學(xué)習(xí)進(jìn)行二進(jìn)制分類(lèi)。支持向量機(jī)的基本思想是通過(guò)對(duì)非線性可分離樣本進(jìn)行非線性變換,將其輸入向量映射到另一個(gè)高維空間。為了在這個(gè)新空間中實(shí)現(xiàn)線性可分,尋找最優(yōu)分類(lèi)超平面,使超平面與不同類(lèi)別的樣本集之間的距離達(dá)到最大,從而達(dá)到最大的泛化能力。它已經(jīng)演變成4種類(lèi)型:
1)線性可分類(lèi)型。
當(dāng)想要分割2種數(shù)據(jù)類(lèi)型時(shí),至少存在一個(gè)分割平面,可以使2種類(lèi)型完全分離,這種類(lèi)型沒(méi)有邊界最大化,因此不能很好地控制錯(cuò)誤,稱(chēng)為線性可分類(lèi)型。
2) 線性類(lèi)型。
無(wú)法徹底地分割2種數(shù)據(jù)類(lèi)型,但可以使絕大多數(shù)的數(shù)據(jù)分割,這種類(lèi)型稱(chēng)為線性類(lèi)型。
3) 非線性類(lèi)型。
當(dāng)一個(gè)類(lèi)型不是線性可分的時(shí)候,支持向量機(jī)通過(guò)提供一個(gè)“軟邊界”來(lái)處理數(shù)據(jù)分類(lèi),即允許一組數(shù)據(jù)中的一些元素落在另一邊,但允許它們通過(guò)這個(gè)超平面而不產(chǎn)生任何重大異常,允許系統(tǒng)變得不那么嚴(yán)格和更健壯。
4) 核函數(shù)。
核函數(shù)的目的是將原始被分類(lèi)數(shù)據(jù)映射到更高維度的空間去進(jìn)行分類(lèi),將原本線性不可分類(lèi)型在高緯度變成線性可分。
在模式識(shí)別領(lǐng)域,K最鄰近算法是一種用于分類(lèi)和回歸的非參數(shù)統(tǒng)計(jì)方法。輸入包含特征空間中K個(gè)最接近的訓(xùn)練樣本。作為一種應(yīng)用廣泛的分類(lèi)方法,K最鄰近擁有屬性簡(jiǎn)單、無(wú)需參數(shù)、分類(lèi)效果好的優(yōu)點(diǎn)。
其分類(lèi)的基本思想是:在K最鄰近分類(lèi)中,輸出是一個(gè)分類(lèi)組。一個(gè)物體的分類(lèi)是由它的鄰居的“多數(shù)票”[15-18]決定的。在K個(gè)最近鄰中最常見(jiàn)的分類(lèi)(是一個(gè)正整數(shù),通常很小)決定了分配給標(biāo)簽的分類(lèi)。如果K=1,則對(duì)象的類(lèi)別由最近的節(jié)點(diǎn)直接賦值。
隨機(jī)森林是一種基于“一組弱估計(jì),組合在一起,形成一個(gè)強(qiáng)估計(jì)”原理的集成算法,本文設(shè)計(jì)的隨機(jī)森林分類(lèi)器是一組100個(gè)決策樹(shù)。讓X和Y分別代表情緒的總數(shù)和樣本的總數(shù)。為每個(gè)決策樹(shù)選擇一組引導(dǎo)程序樣本。然后通過(guò)在每個(gè)節(jié)點(diǎn)上賦予y<Y變量來(lái)構(gòu)建決策樹(shù),直到用盡所有的變量。在樹(shù)的每個(gè)節(jié)點(diǎn)上,用它們的變量擬合分類(lèi)模型,并找出截?cái)帱c(diǎn)。經(jīng)過(guò)訓(xùn)練,未知樣本的種類(lèi)預(yù)測(cè)可以通過(guò)所有個(gè)體樹(shù)的所有預(yù)測(cè)等級(jí)中的大多數(shù)投票來(lái)決定[19-22]。
在這一部分,主要介紹基于支持向量機(jī)、隨機(jī)森林和K最鄰近3種分類(lèi)算法的識(shí)別率。對(duì)于實(shí)驗(yàn)數(shù)據(jù),本文使用柏林的情感語(yǔ)料庫(kù)EMODB。這是柏林理工大學(xué)錄制的、德語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù)。采用7種情緒(生氣、無(wú)聊、厭惡、害怕、高興、中性、悲傷)模擬10種情緒(男5例、女5例),共計(jì)800句。經(jīng)過(guò)篩選,該語(yǔ)料庫(kù)保留了233個(gè)男性情感句和302個(gè)女性情感句,共計(jì)535個(gè)句子[12]。本文利用數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)展原始柏林情感語(yǔ)料庫(kù),將樣本量增加到700個(gè)句子。以其中的600個(gè)句子作為訓(xùn)練集,100個(gè)句子作為測(cè)試集。
從圖7得出,基于支持向量機(jī)算法的平均識(shí)別率達(dá)到86.65%。在這個(gè)模型中,無(wú)聊、害怕和中性的識(shí)別率較高。然而,厭惡的識(shí)別率很低。支持向量機(jī)算法是解決高維特征分類(lèi)問(wèn)題的有效方法。當(dāng)特征維數(shù)大于樣本數(shù)時(shí),仍然有較好的效果。核函數(shù)的數(shù)量很多,可以很靈活地解決各種非線性分類(lèi)回歸問(wèn)題。當(dāng)樣本量不是海量數(shù)據(jù)時(shí),分類(lèi)精度高,泛化能力強(qiáng)。
如圖8所示,基于隨機(jī)森林的1 582維特征的識(shí)別率中,中性和悲傷的識(shí)別率較高,而厭惡的識(shí)別率很低,只有15.38%。隨機(jī)森林的平均識(shí)別率為61.14%,與支持向量機(jī)算法相比較低。
如圖9所示,K最近鄰算法的平均識(shí)別率為79.38%。其中高興的識(shí)別率很低,只有50%,中性的識(shí)別率很高。因?yàn)镵最鄰近模型主要依賴(lài)于有限的相鄰樣本,而不是依賴(lài)于判別類(lèi)別域的方法來(lái)確定類(lèi)別。因此,對(duì)于交叉或重疊較多的樣本集合,K最鄰近方法比其他方法更適合。該算法更適合于樣本量較大的類(lèi)域的自動(dòng)分類(lèi)。然而,小樣本更容易出現(xiàn)分類(lèi)錯(cuò)誤。
圖7 基于支持向量機(jī)的1 582維特征的識(shí)別率Fig. 7 1 582 dimensional features recognition rate based on support vector machine
圖8 基于隨機(jī)森林的1 582維特征的識(shí)別率Fig. 8 1 582 dimensional features recognition rate based on random forest
圖9 基于K最鄰近的1 582維特征的識(shí)別率Fig. 9 1 582 dimensional features recognition rate based on k nearest neighbor
圖10為基于支持向量機(jī)、隨機(jī)森林和K最鄰近3種算法的1 582維特征的識(shí)別率比較。綜上所述,使用了數(shù)據(jù)增強(qiáng)方法的3種算法的中性感情的識(shí)別率普遍比較好;而厭惡識(shí)別率相對(duì)較低。
表1為未使用數(shù)據(jù)增強(qiáng)和使用數(shù)據(jù)增強(qiáng)后的識(shí)別結(jié)果對(duì)比。表格縱軸代表參數(shù)為:準(zhǔn)確率、宏平均、微平均、召回率、f1權(quán)重、漢明損失率、kappa系數(shù)和杰卡德相似系數(shù)等。對(duì)比發(fā)現(xiàn),使用了數(shù)據(jù)增強(qiáng)后的支持向量機(jī)和K最鄰近算法識(shí)別率提高了。其中,支持向量機(jī)算法的準(zhǔn)確率提高了2.53%,K最近鄰算法的準(zhǔn)確率提高了15.73%。然而,隨機(jī)森林的識(shí)別結(jié)果較差,其漢明損失率增大了13.1%。
圖10 3種算法的1 582維特征的平均識(shí)別率Fig. 10 Average recognition rate of 1 582 dimensional features of three algorithms
表1 未使用數(shù)據(jù)增強(qiáng)和使用后的識(shí)別結(jié)果對(duì)比Table 1 Comparison of unused data enhancement and used
表2為10組低級(jí)特征的識(shí)別結(jié)果分析,縱軸分別表示了基頻(F0final)、平滑的基頻輪廓線(F0finEnv)、幀間抖動(dòng)(jitter DDp)、局部抖動(dòng)(jitter-Local)、梅爾頻帶的對(duì)數(shù)功率(LogMelFreqBand)、線譜對(duì)頻率(lspFreq)、梅爾頻率倒譜系數(shù)(pcm_fftMag_mfcc)、響度(pcm_loudness)、震動(dòng)(shimmer)和最終基頻的可能發(fā)聲概率(voicingFinalUnclipped)等。根據(jù)表2中數(shù)據(jù)統(tǒng)計(jì),pcm_fft-Mag_mfcc特征和LogMelFreqBand特征的識(shí)別結(jié)果較好。其中pcm_fftMag_mfcc特征在3種算法上的精確度分別為74.63%、64.93%和66.42%;LogMelFreqBand特征的精確度分別為84.33%、73.13%和58.21%。面向數(shù)據(jù)增強(qiáng)方法的語(yǔ)音情感識(shí)別方法對(duì)LogMelFreqBand特征和pcm_fft-Mag_mfcc特征的識(shí)別性能有一定的提高,改善了傳統(tǒng)語(yǔ)音情感識(shí)別方法識(shí)別率較低的現(xiàn)狀。
表2 10組低級(jí)描述特征的識(shí)別比較Table 2 Comparison of 10 sets of low-level descriptive features
本文引入了一種基于時(shí)頻域的數(shù)據(jù)增強(qiáng)方法,提出了將數(shù)據(jù)增強(qiáng)與語(yǔ)音情感識(shí)別結(jié)合的策略,并著重分析了與情感有關(guān)的特征和語(yǔ)音情感識(shí)別的關(guān)系。實(shí)驗(yàn)結(jié)果表明,使用了數(shù)據(jù)增強(qiáng)方法的支持向量機(jī)和K最鄰近分類(lèi)算法的識(shí)別率提高了,而隨機(jī)森林的識(shí)別效果并不樂(lè)觀;此外,改進(jìn)了傳統(tǒng)語(yǔ)音情感識(shí)別數(shù)據(jù)特征多且無(wú)關(guān)特征多的問(wèn)題。