余莉萍,梁鎮(zhèn)麟,梁瑞宇
(1.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203; 2.東南大學(xué) 信息科學(xué)工程學(xué)院,南京 210096;3.南京工程學(xué)院 信息與通信工程學(xué)院,南京 211167)
兒童情感識(shí)別是情感計(jì)算的重要部分[1]。兒童在情感發(fā)泄和應(yīng)對(duì)不同情感時(shí)作出合理舉措的能力遠(yuǎn)不如成年人,如果兒童情緒無(wú)法進(jìn)行合理宣泄并及時(shí)得到疏導(dǎo)會(huì)導(dǎo)致其產(chǎn)生情緒障礙,進(jìn)而引發(fā)焦慮癥等心理健康問(wèn)題。因此,運(yùn)用適當(dāng)?shù)乃惴ɑ蚰P蛯?duì)兒童情緒進(jìn)行智能判斷和合理疏導(dǎo)具有重要意義。
研究人員從聲學(xué)特征、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方面對(duì)兒童情感識(shí)別進(jìn)行深入研究。文獻(xiàn)[2]提出利用支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建檢測(cè)兒童二級(jí)情緒狀態(tài)的系統(tǒng)。文獻(xiàn)[3]利用基于多智能體的交互系統(tǒng)對(duì)兒童的情感狀況進(jìn)行實(shí)時(shí)定義。文獻(xiàn)[4]創(chuàng)建兒童雙模態(tài)情感數(shù)據(jù)庫(kù)并采用雙模態(tài)情感識(shí)別方法衡量?jī)和楦械呢暙I(xiàn)比例,指出嬰兒(或幼兒)的情感比大齡兒童的更難判斷,嬰兒通常用哭泣向父母或者監(jiān)護(hù)人表達(dá)自身需求。文獻(xiàn)[5]提取嬰兒哭聲的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)并基于隱馬爾科夫模型(Hidden Markov Model,HMM)對(duì)嬰兒哭聲進(jìn)行分類(lèi),以識(shí)別嬰兒是否處于健康狀態(tài)。文獻(xiàn)[6]將語(yǔ)譜圖作為特征向量,選取卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為分類(lèi)模型,對(duì)嬰兒在疼痛、饑餓和困倦時(shí)的哭聲進(jìn)行分類(lèi)和有效識(shí)別。文獻(xiàn)[7]將支持向量機(jī)(Support Vector Machine,SVM)作為分類(lèi)器對(duì)嬰兒在饑餓、疼痛及困倦時(shí)的哭聲進(jìn)行分類(lèi),取得較好的識(shí)別效果。
雖然上述算法被成功應(yīng)用于兒童情感識(shí)別,但是傳統(tǒng)機(jī)器學(xué)習(xí)算法以及深度學(xué)習(xí)中的自編碼器和卷積神經(jīng)網(wǎng)絡(luò)都只能接受具有固定維度的數(shù)據(jù)作為輸入,這與實(shí)際中有效語(yǔ)音長(zhǎng)度不斷變化存在一定矛盾。針對(duì)該問(wèn)題,文獻(xiàn)[8-10]從短時(shí)語(yǔ)音幀中提取情感相關(guān)特征(以下稱(chēng)為幀級(jí)特征),將靜態(tài)統(tǒng)計(jì)函數(shù)(如均值、方差、最大值、線性回歸系數(shù)等)作用于幀級(jí)特征上,最終串聯(lián)形成具有固定維度的特征向量來(lái)表示該幀語(yǔ)音的特性。雖然該方法解決了模型輸入的問(wèn)題,但是通過(guò)統(tǒng)計(jì)分析處理后的語(yǔ)音特征丟失了原始語(yǔ)音的時(shí)序信息。
本文提出一種基于改進(jìn)長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)的兒童語(yǔ)音情感識(shí)別模型,在LSTM網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,將幀級(jí)語(yǔ)音特征取代傳統(tǒng)統(tǒng)計(jì)特征,用注意力門(mén)替換傳統(tǒng)的遺忘門(mén)和輸入門(mén),并在多個(gè)時(shí)刻的細(xì)胞狀態(tài)上加權(quán)注意力構(gòu)建深度注意力門(mén),以取得更好的識(shí)別性能。
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種變體,主要用于處理時(shí)間差較長(zhǎng)的序列信息[11-13]。LSTM網(wǎng)絡(luò)通過(guò)加入遺忘門(mén)單元可以解決反向傳播時(shí)RNN存在的梯度消失造成長(zhǎng)期信息難以存放的問(wèn)題。LSTM網(wǎng)絡(luò)已成功應(yīng)用于自然語(yǔ)言處理[14-16]問(wèn)題。為強(qiáng)化LSTM網(wǎng)絡(luò)在特定任務(wù)中處理數(shù)據(jù)的能力,研究人員進(jìn)一步對(duì)LSTM網(wǎng)絡(luò)內(nèi)部構(gòu)造進(jìn)行優(yōu)化。文獻(xiàn)[17]通過(guò)門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)將LSTM網(wǎng)絡(luò)的輸入門(mén)和遺忘門(mén)進(jìn)行融合降低了模型參數(shù),但是在大規(guī)模的數(shù)據(jù)集上,LSTM網(wǎng)絡(luò)在所有機(jī)器翻譯任務(wù)上的指標(biāo)均優(yōu)于GRU[18]。文獻(xiàn)[19]通過(guò)ConvLSTM網(wǎng)絡(luò)結(jié)構(gòu)將LSTM的門(mén)結(jié)構(gòu)計(jì)算方式由矩陣相乘改進(jìn)為卷積,該方法在圖像領(lǐng)域取得成效,但是對(duì)語(yǔ)音效果的改善十分有限。文獻(xiàn)[20]通過(guò)前饋型序列記憶網(wǎng)絡(luò)(Feedforward Sequential Memory Network,FSMN)將RNN的無(wú)限脈沖響應(yīng)濾波器(Infinite Impulse Response Filter,IIR)記憶塊改進(jìn)為有限脈沖響應(yīng)濾波器(Finite Impulse Response Filter,FIR)記憶塊,并在語(yǔ)音識(shí)別和合成方面取得顯著成效,但是FSMN通常需要堆疊很深的層數(shù),因而FSMN較單向的LSTM網(wǎng)絡(luò)存在延時(shí)[21]。文獻(xiàn)[22]提出高級(jí)長(zhǎng)短期記憶(Advanced LSTM)網(wǎng)絡(luò),利用注意力機(jī)制對(duì)多個(gè)細(xì)胞狀態(tài)進(jìn)行加權(quán),能有效用于情感識(shí)別。但是文獻(xiàn)[23]指出該方法并沒(méi)有改變LSTM網(wǎng)絡(luò)內(nèi)部的門(mén)結(jié)構(gòu),且所需訓(xùn)練時(shí)間較多。 此外,研究人員在如何堆疊LSTM結(jié)構(gòu)以實(shí)現(xiàn)更可靠的情感識(shí)別方面不斷探索。文獻(xiàn)[24]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)從6 s長(zhǎng)的語(yǔ)音波形中提取多通道語(yǔ)音特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)了端到端的情感識(shí)別。文獻(xiàn)[25]通過(guò)CNN從6 s長(zhǎng)的語(yǔ)音波形中提取1 280種抽象特征,與表情特征融合后作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)了多模態(tài)情感識(shí)別。
傳統(tǒng)的LSTM網(wǎng)絡(luò)使用的計(jì)算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot*tanh(Ct)
(6)
注意力機(jī)制是在人類(lèi)視覺(jué)注意力機(jī)制基礎(chǔ)上形成的。注意力使得人類(lèi)對(duì)視覺(jué)捕獲到信息的重要部分給予更大關(guān)注,盡可能獲取所關(guān)注目標(biāo)的細(xì)節(jié)信息,同時(shí)減少對(duì)目標(biāo)周?chē)鸁o(wú)關(guān)信息的關(guān)注,即對(duì)無(wú)關(guān)信息產(chǎn)生抑制。為有效利用LSTM網(wǎng)絡(luò)歷史時(shí)刻輸出的信息,文獻(xiàn)[26]將軟注意力機(jī)制引入到LSTM網(wǎng)絡(luò)模型(以下稱(chēng)為L(zhǎng)STM模型)中,并將其成功應(yīng)用于機(jī)器翻譯領(lǐng)域,通過(guò)對(duì)LSTM模型在不同時(shí)刻的輸出進(jìn)行注意力加權(quán),可表達(dá)當(dāng)前待翻譯單詞與其他單詞的關(guān)聯(lián)程度。文獻(xiàn)[27]提出基于注意力機(jī)制的encoder-decoder結(jié)構(gòu),其應(yīng)用于語(yǔ)音識(shí)別的效果優(yōu)于HMM解碼系統(tǒng)。文獻(xiàn)[28]在encoder-decoder結(jié)構(gòu)的基礎(chǔ)上提出局部注意力模型,首先預(yù)估一個(gè)對(duì)齊位置,然后在對(duì)齊位置處尺寸為L(zhǎng)的窗口范圍取類(lèi)似于軟注意力模型的概率分布。文獻(xiàn)[29]將單頭注意力機(jī)制改進(jìn)為多頭注意力機(jī)制,通過(guò)Transformer模型顯著地提升了機(jī)器翻譯的質(zhì)量。
近年來(lái),自注意力機(jī)制成為學(xué)者們研究的熱點(diǎn)。文獻(xiàn)[30]計(jì)算LSTM模型輸出的自注意力,針對(duì)不同的時(shí)間步數(shù)計(jì)算出多個(gè)分?jǐn)?shù),進(jìn)而提出新的LSTM模型,計(jì)算公式為:
A=softmax(Ws2tanh(Ws1HT))
(7)
其中,A為注意力分?jǐn)?shù)矩陣,hi為i時(shí)刻隱層單元的輸出,H為L(zhǎng)STM模型每個(gè)時(shí)刻輸出hi堆疊在一起的結(jié)果:
H=(h1,h2,…,hn)
(8)
加權(quán)后輸出表示為:
M=AH
(9)
注意力機(jī)制的引入減小了處理高維輸入數(shù)據(jù)的計(jì)算負(fù)擔(dān),使得任務(wù)處理系統(tǒng)更專(zhuān)注于找到輸入數(shù)據(jù)中與當(dāng)前輸出顯著相關(guān)的信息,從而提高輸出質(zhì)量[28]。近年來(lái),研究人員將注意力機(jī)制應(yīng)用于語(yǔ)音情感效果的提升。文獻(xiàn)[31]利用注意力機(jī)制在多層LSTM網(wǎng)絡(luò)之間進(jìn)行特征篩選和跨越鏈接,取得良好的情感識(shí)別效果。文獻(xiàn)[32]在RNN的輸出端提出本地注意力(Local Attention)機(jī)制,有效地提升了多個(gè)數(shù)據(jù)集的情感識(shí)別效果。
本文將注意力機(jī)制引入LSTM模型的內(nèi)部門(mén)結(jié)構(gòu),提出了基于注意力門(mén)的LSTM模型,從而大量減少了LSTM的參數(shù)數(shù)量;將深度的概念引入注意力門(mén)使得LSTM模型能更好地學(xué)習(xí)輸入特征而避免信息冗余。本文提出的基于注意力門(mén)的LSTM結(jié)構(gòu)使得每個(gè)時(shí)間步計(jì)算時(shí),上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,并在這一刻輸入中利用注意力門(mén)修改傳統(tǒng)遺忘門(mén)和輸入門(mén)后對(duì)需要注意的特征進(jìn)行加權(quán)。
由于傳統(tǒng)的輸入門(mén)和遺忘門(mén)僅由一個(gè)全連接層實(shí)現(xiàn),因此需要訓(xùn)練足夠多次后模型才能注意到需要留下的細(xì)胞狀態(tài)信息和需要加入的新輸入信息,從而導(dǎo)致其收斂減速。文獻(xiàn)[33]在此基礎(chǔ)上增加了窺視連接,將細(xì)胞狀態(tài)也作為輸入,在3個(gè)門(mén)中加入細(xì)胞狀態(tài)信息,而參數(shù)的增加造成了訓(xùn)練時(shí)間和空間復(fù)雜度相應(yīng)增加。本文對(duì)每一刻的細(xì)胞狀態(tài)做自注意力,并對(duì)細(xì)胞狀態(tài)不需要注意的部分加入輸入的候選信息,自注意力算法用注意力門(mén)替換了遺忘門(mén)、輸入門(mén)以及窺視連接所需的3個(gè)矩陣。
注意力門(mén)at的定義如下:
at=activation(V·tanh(W·Ct-1))
(10)
其中,activation為激活函數(shù)(可根據(jù)需要自選對(duì)應(yīng)激活函數(shù),但其值域應(yīng)滿足絕對(duì)值小于1),更新細(xì)胞狀態(tài)的計(jì)算公式為:
(11)
注意力門(mén)能在提高模型識(shí)別率的同時(shí)減少參數(shù)數(shù)量和訓(xùn)練時(shí)間。在已有的報(bào)道中,通常會(huì)采用模型蒸餾[34]、8-bit量化[35]、共享參數(shù)[36-37]等方法。本文提出基于注意力機(jī)制的注意力門(mén),顯著地減少了LSTM模型內(nèi)部的參數(shù)。此外,由于在LSTM模型內(nèi)部進(jìn)行修改,對(duì)于較長(zhǎng)的輸入序列,基于注意力門(mén)的模型能減少更多的訓(xùn)練時(shí)間。例如,對(duì)于輸入維度為512、輸出維度為256的一層LSTM模型來(lái)說(shuō),如果忽略偏置,其通常需要的參數(shù)為:1)3個(gè)門(mén)結(jié)構(gòu)和候選值所需的維度為[512+256,256×4]的權(quán)重;2)如果在計(jì)算門(mén)結(jié)構(gòu)時(shí)考慮到上一刻的細(xì)胞狀態(tài),還需增加3×[1,256]的向量作為窺視門(mén)[38]。本文因?yàn)橹苯訉?duì)細(xì)胞狀態(tài)計(jì)算自注意力作為注意力門(mén),所以不需再引入窺視門(mén)結(jié)構(gòu)。同時(shí),由于融合了遺忘門(mén)和輸入門(mén)為注意力門(mén),所需參數(shù)數(shù)量降為[512+256,256×2]和計(jì)算注意力的2×[256,256]的權(quán)重。對(duì)于本層而言,參數(shù)數(shù)量從最初的787 200降到524 288,減少了33.4%的參數(shù)。對(duì)于層數(shù)更深、模型更復(fù)雜、數(shù)據(jù)量也更大的LSTM模型而言,有效地減少了參數(shù)數(shù)量。
LSTM模型通常用來(lái)處理時(shí)序信息,但是該信息會(huì)隨著時(shí)間的累積而增加,因而LSTM模型在某一刻的計(jì)算(即更新細(xì)胞狀態(tài)c和隱層輸出h)都只基于外部輸入和上一刻的細(xì)胞狀態(tài)與隱層輸出。在注意力機(jī)制提出前,如果每一時(shí)刻都考慮之前多個(gè)時(shí)刻,會(huì)導(dǎo)致信息過(guò)多而遺失重要信息,以及增加計(jì)算量并導(dǎo)致梯度爆炸。但是,t時(shí)刻細(xì)胞狀態(tài)的信息不僅與t-1時(shí)刻的信息有關(guān),還與t-2時(shí)刻的信息緊密相關(guān),而t-2時(shí)刻的信息在t-1時(shí)刻被選擇性遺忘(遺忘門(mén))。為此,本文提出了深度遺忘門(mén)的概念,并設(shè)計(jì)對(duì)應(yīng)的輸入門(mén)。
深度遺忘門(mén)不僅關(guān)注上一時(shí)刻細(xì)胞狀態(tài)的信息(深度length=1),還關(guān)注t-2,t-3,…,t-n時(shí)刻(深度length=n)細(xì)胞狀態(tài)的信息,即構(gòu)建Deep-Attention-LstmCell結(jié)構(gòu),如圖1所示。
圖1 Deep-Attention-LstmCell內(nèi)部結(jié)構(gòu)示意圖
深度遺忘門(mén)具體實(shí)現(xiàn)如下:
(12)
(13)
(14)
值得注意的是,“深度”的引入會(huì)造成訓(xùn)練時(shí)間的增加。這是因?yàn)槌饲跋蛟黾恿嗽谘h(huán)中對(duì)多個(gè)細(xì)胞狀態(tài)計(jì)算各自的注意力門(mén),反向傳播中也增加了更多的鏈?zhǔn)角髮?dǎo)。從模型的參數(shù)來(lái)看,雖然深度會(huì)造成訓(xùn)練時(shí)間的增加,但是因?yàn)楦鲗由疃鹊淖⒁饬﹂T(mén)權(quán)重V、W共享,所以不會(huì)造成模型參數(shù)的增加。
本文提出深度的目的是提升語(yǔ)音情感的識(shí)別性能,為研究對(duì)該性能的提升效果,進(jìn)行以下實(shí)驗(yàn):
實(shí)驗(yàn)1研究深度性能對(duì)兒童情感識(shí)別率的影響。使用深度為1、2和3的基于注意力門(mén)的LSTM模型(以下稱(chēng)為注意力門(mén)LSTM模型)進(jìn)行對(duì)比。
實(shí)驗(yàn)2研究參數(shù)數(shù)量和訓(xùn)練時(shí)間的降低對(duì)語(yǔ)音情感識(shí)別性能的影響。使用深度為1的注意力門(mén)LSTM模型和傳統(tǒng)的GRU模型、LSTM模型進(jìn)行實(shí)驗(yàn)對(duì)比。
深度注意力門(mén)LSTM模型的訓(xùn)練框架如圖2所示。其中,LSTM0表示第1層深度注意力門(mén)LSTM模型,LSTM1表示第2層深度注意力門(mén)LSTM模型。xt為分幀加窗后第t幀語(yǔ)音所提取的INTERSPEECH語(yǔ)音特征[8-10],ht和Ct為其對(duì)應(yīng)的LSTM模型輸出的隱層輸出和細(xì)胞狀態(tài)。由圖2可以看出,傳統(tǒng)LSTM模型在t時(shí)刻的輸入狀態(tài)是(ht-1,Ct-1),而在本文的訓(xùn)練中,每一時(shí)刻的狀態(tài)擴(kuò)充為(ht-1,{Ct-1,Ct-2,…,Ct-L}),其中L為注意力門(mén)的深度。包含前序所有時(shí)序信息的最后一層LSTM的最后一個(gè)狀態(tài)被輸入到后續(xù)分類(lèi)網(wǎng)絡(luò)中,以進(jìn)行對(duì)兒童情感的識(shí)別。
圖2 深度注意力門(mén)LSTM模型訓(xùn)練框架
實(shí)驗(yàn)使用2個(gè)情感表征形式差異較大的數(shù)據(jù)庫(kù)來(lái)驗(yàn)證本文算法對(duì)于兒童語(yǔ)音情感的有效性。為研究本文算法處理其他類(lèi)型情感識(shí)別問(wèn)題的性能,以及參數(shù)數(shù)量降低是否能優(yōu)化時(shí)間或降低性能,實(shí)驗(yàn)采用Fau Aibo兒童情感語(yǔ)料庫(kù)、嬰兒哭聲情感需求語(yǔ)料庫(kù)和CASIA漢語(yǔ)情感語(yǔ)料庫(kù)[39]進(jìn)行驗(yàn)證。
1)Fau Aibo兒童情感語(yǔ)料庫(kù):Fau Aibo用高性能的無(wú)線耳麥?zhǔn)占浿屏?0歲左右的51名兒童和電子寵物 Aibo在游戲過(guò)程中的發(fā)聲,保留其中情感較突出的數(shù)據(jù),其中自然語(yǔ)言包含48 401個(gè)單詞。為了保證標(biāo)注的準(zhǔn)確性,該語(yǔ)料庫(kù)的每個(gè)樣本均由5個(gè)語(yǔ)言專(zhuān)業(yè)的學(xué)生試聽(tīng)后通過(guò)投票標(biāo)注情感。本文從該語(yǔ)料庫(kù)中挑選了INTERSPEECH 2009情感挑戰(zhàn)賽中定義的5類(lèi)標(biāo)簽:即A (Angry、 Touchy、 Reprimanding)、E (Emphatic)、N (Neutral)、P (Motherese、 Joyful)和R (Rest)。
2)嬰兒哭聲情感需求語(yǔ)料庫(kù):由于國(guó)際上沒(méi)有統(tǒng)一的嬰兒哭聲情感需求語(yǔ)料庫(kù),筆者與國(guó)內(nèi)某醫(yī)院合作錄制了嬰兒在生氣(Angry)、饑餓(Hungry)、疼痛(Pain)、傷心(Sad)和困倦(Tired)5種狀態(tài)下的哭聲語(yǔ)音文件,并對(duì)該文件進(jìn)行了標(biāo)注。為提高該語(yǔ)料庫(kù)的質(zhì)量,筆者通過(guò)人工的方法對(duì)嬰兒哭聲情感語(yǔ)料進(jìn)行篩選,除去嬰兒哭泣時(shí)夾雜父母安慰孩子的語(yǔ)音相關(guān)幀,以及2個(gè)和2個(gè)以上嬰兒同時(shí)哭泣的語(yǔ)音相關(guān)幀。該語(yǔ)料庫(kù)經(jīng)過(guò)篩選后包含10名嬰兒(男孩和女孩各5名),每位嬰兒在每種狀態(tài)下有20條語(yǔ)料,共計(jì)5×10×20=1 000條語(yǔ)料。
3)CASIA漢語(yǔ)情感語(yǔ)料庫(kù)由中國(guó)科學(xué)院自動(dòng)化所錄制,由4個(gè)相關(guān)專(zhuān)業(yè)的人員按照生氣(angry)、高興(happy)、害怕(fear)、悲傷(sad)、驚訝(surprise)和中性(neutral)等6種情緒進(jìn)行發(fā)音。該語(yǔ)料庫(kù)共有9 600條語(yǔ)料。
實(shí)驗(yàn)在INTERSPEECH語(yǔ)音情感特征[8-10]的基礎(chǔ)上選用了部分幀級(jí)特征。文獻(xiàn)[8]提取了16種低級(jí)描述符(LLD、過(guò)零率、均方根幀能量、基音頻率和梅爾頻率倒譜系數(shù)1~12)及其差分系數(shù),針對(duì)其中每個(gè)描述符,又計(jì)算了12個(gè)統(tǒng)計(jì)函數(shù),因此總特征向量共有16×2×12=384個(gè)特征。INTERSPEECH 2010(IS2010)語(yǔ)音情感特征[9]在此基礎(chǔ)上,將LLD增加到38種,因而總特征維度擴(kuò)展到1 582維。INTERSPEECH ComPARE[10]特征集的特征維度則增加到6 373維。
實(shí)驗(yàn)所用幀級(jí)語(yǔ)音情感特征集如表1所示。與INTERSPEECH語(yǔ)音情感特征相比,該特征集未計(jì)算統(tǒng)計(jì)函數(shù),這是因?yàn)?
1)計(jì)算統(tǒng)計(jì)函數(shù)后的固定長(zhǎng)度特征損失了原始語(yǔ)音中的大量信息,如時(shí)序信息和序列間的關(guān)系等。
2)文獻(xiàn)[40]認(rèn)為深度學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征變化的能力,能夠從底層語(yǔ)音特征中學(xué)習(xí)到與任務(wù)相關(guān)的深層特征,由此可知幀級(jí)特征更適合作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入。
3)包含大量統(tǒng)計(jì)信息的特征會(huì)大量增加訓(xùn)練模型的參數(shù)數(shù)量、訓(xùn)練時(shí)間和復(fù)雜度,對(duì)訓(xùn)練設(shè)備有一定要求。
表1 幀級(jí)語(yǔ)音情感特征集
原始數(shù)據(jù)分為訓(xùn)練集與測(cè)試集兩部分,這兩部分?jǐn)?shù)據(jù)相互隔離,且訓(xùn)練集與測(cè)試集的比例為4∶1。實(shí)驗(yàn)均采用單向兩層LSTM堆疊結(jié)構(gòu),并使用了一個(gè)全連接層和一個(gè)softmax層作為訓(xùn)練模型。在訓(xùn)練過(guò)程中,使用小批量梯度下降法并采用tanh作為激活函數(shù),具體參數(shù)如表2所示。為保證實(shí)驗(yàn)對(duì)比的有效性,相同的語(yǔ)料庫(kù)和模型實(shí)驗(yàn)參數(shù)均完全相同。
表2 實(shí)驗(yàn)參數(shù)
傳統(tǒng)LSTM模型通過(guò)遺忘門(mén)除去多余信息,通過(guò)輸入門(mén)獲取新信息。本文利用自注意力和LSTM的基本結(jié)構(gòu),對(duì)細(xì)胞狀態(tài)做自注意力,從而對(duì)LSTM的遺忘門(mén)和輸入門(mén)進(jìn)行對(duì)比。同時(shí),考慮到時(shí)序信息的關(guān)聯(lián)性,提出基于深度的自注意力門(mén),并在深度為1、2和3的條件下分別進(jìn)行比較。實(shí)驗(yàn)對(duì)比了4類(lèi)模型:即傳統(tǒng)LSTM模型、LSTM+deepf_1模型、LSTM+deepf_2模型、和LSTM+deepf_3模型,上述模型對(duì)應(yīng)的深度分布為0、1、2和3,如圖3所示。由圖3(a)、圖3(b)、圖4(a)和圖4(b)可以看出,采用嬰兒哭聲情感需求語(yǔ)料庫(kù)和Fau Aibo兒童情感語(yǔ)料庫(kù),利用提出的注意力門(mén)替換掉傳統(tǒng)LSTM模型的遺忘門(mén)和輸出門(mén)后,注意力門(mén)LSTM模型在訓(xùn)練集和測(cè)試集上的收斂速度比傳統(tǒng)LSTM模型的大幅提高;采用嬰兒哭聲情感需求語(yǔ)料庫(kù)時(shí),傳統(tǒng)LSTM模型約在第5 000步開(kāi)始穩(wěn)定收斂,而注意力門(mén)LSTM模型約在2 500步開(kāi)始穩(wěn)定收斂;采用Fau Aibo兒童情感語(yǔ)料庫(kù)時(shí),傳統(tǒng)LSTM模型約在第30 000步開(kāi)始穩(wěn)定收斂,而注意力門(mén)LSTM模型在約17 000步開(kāi)始穩(wěn)定收斂;當(dāng)模型收斂后,注意力門(mén)LSTM模型對(duì)兒童情感的平均識(shí)別率明顯優(yōu)于傳統(tǒng)LSTM模型。由圖3(c)和圖4(c)可以看出,當(dāng)模型收斂時(shí),注意力門(mén)LSTM模型在測(cè)試集上的平均識(shí)別率、最低識(shí)別率和最高識(shí)別率均比傳統(tǒng)LSTM模型高約5%;當(dāng)注意力門(mén)的深度加大后,注意力門(mén)LSTM模型的上述性能得到進(jìn)一步提升。
圖3 不同LSTM模型采用嬰兒哭聲情感需求語(yǔ)料庫(kù)的性能情況
圖4 不同LSTM模型在采用Fau Aibo兒童情感語(yǔ)料庫(kù)的性能情況
通過(guò)上述分析可知,注意力門(mén)LSTM模型的性能得到改善是因?yàn)槠湫薷牧藗鹘y(tǒng)LSTM模型的遺忘門(mén)和輸入門(mén),使得LSTM模型能針對(duì)上一刻的細(xì)胞狀態(tài)通過(guò)自注意力來(lái)留下重要信息,并將不重要的信息作為新加入的輸入在對(duì)應(yīng)位置進(jìn)行補(bǔ)充,從而提升LSTM模型性能;注意力門(mén)LSTM模型引入深度概念后,使得每次遺忘操作由多個(gè)細(xì)胞狀態(tài)決定而不是由其中某一個(gè)細(xì)胞狀態(tài)決定。
為定量分析不同模型在測(cè)試集中對(duì)每類(lèi)情感的識(shí)別性能,取各模型在測(cè)試集上從訓(xùn)練開(kāi)始到結(jié)束識(shí)別率最高一次的模型性能指標(biāo)進(jìn)行對(duì)比,采用嬰兒哭聲情感需求語(yǔ)料庫(kù)和Fau Aibo兒童情感語(yǔ)料庫(kù)得到的性能指標(biāo)如表3和表4所示??梢?jiàn)對(duì)于測(cè)試集而言,注意力門(mén)LSTM模型的性能指標(biāo)均優(yōu)于傳統(tǒng)LSTM模型。
表3 不同LSTM模型采用嬰兒哭聲情感需求語(yǔ)料庫(kù)的性能指標(biāo)
表4 不同模型采用Fau Aibo兒童情感語(yǔ)料庫(kù)的性能指標(biāo)
由表3可以看出,采用嬰兒哭聲情感語(yǔ)料庫(kù)時(shí),注意力門(mén)LSTM模型召回率除了“困倦”項(xiàng)和傳統(tǒng)LSTM模型較接近外,其他4項(xiàng)均優(yōu)于傳統(tǒng)LSTM模型;而注意力門(mén)LSTM模型的F1分?jǐn)?shù)在5類(lèi)情感上均優(yōu)于傳統(tǒng)LSTM模型。在深度方面,深度3和深度2的注意力門(mén)LSTM模型的性能接近,除了“傷心”外,上述模型其他4項(xiàng)的召回率和F1分?jǐn)?shù)均優(yōu)于深度1的注意力門(mén)LSTM模型。
由表4可以看出,采用Fau Aibo兒童情感語(yǔ)料庫(kù)時(shí),注意力門(mén)LSTM模型的召回率和F1分?jǐn)?shù)除了E類(lèi)比傳統(tǒng)LSTM模型要低,其他4項(xiàng)均優(yōu)于傳統(tǒng)LSTM模型。在深度方面,深度3和深度2的注意力門(mén)LSTM模型性能接近,除了R類(lèi)外,上述模型其他4項(xiàng)的召回率和F1分?jǐn)?shù)均優(yōu)于深度1的注意力門(mén)LSTM模型。
值得注意的是,Fau Aibo兒童情感語(yǔ)料庫(kù)各類(lèi)別的樣本數(shù)量不均衡,其中N類(lèi)最多有5 376個(gè)樣本,而P類(lèi)最少只有215個(gè)樣本。由上述分析可知,隨著深度的加大,可以增強(qiáng)模型對(duì)少量樣本的學(xué)習(xí)。和傳統(tǒng)LSTM模型相比,采用嬰兒哭聲情感語(yǔ)料庫(kù)時(shí),LSTM+deepf_2模型的召回率提高5.50%,F1分?jǐn)?shù)提高5.49%;采用Fau Aibo兒童情感語(yǔ)料庫(kù)時(shí),LSTM+deepf_2模型的召回率提高3.14%,LSTM+deepf_3模型的F1分?jǐn)?shù)提高1.84%。
和傳統(tǒng)LSTM模型相比,注意力門(mén)LSTM模型將注意力機(jī)制改進(jìn)為注意力門(mén)機(jī)制,并用注意力門(mén)替換了LSTM模型的遺忘門(mén)和輸入門(mén),從而大量減少了LSTM模型的參數(shù)。以下實(shí)驗(yàn)中將兩層LSTM模型和注意力門(mén)LSTM模型進(jìn)行對(duì)比。為了和其他低參數(shù)RNN進(jìn)行對(duì)比,將LSTM模型、LSTM+deepf_1模型和GRU模型在時(shí)間和識(shí)別性能方面進(jìn)行對(duì)比。
前文對(duì)參數(shù)量的減少已進(jìn)行具體分析(見(jiàn)2.1節(jié))。在以下實(shí)驗(yàn)中,兩層注意力門(mén)LSTM模型將參數(shù)數(shù)量從“(93+512)×512×4+3×512+(512+256)×256×4+3×256=2 027 776”降低為“(93+512)×512×2+2×512×512+(512+256)×256×2+2×256×256=1 668 096”。此外,還引入深度的概念使得LSTM模型更好地學(xué)習(xí)輸入特征以避免信息冗余。注意力門(mén)LSTM結(jié)構(gòu)使得每個(gè)時(shí)間步計(jì)算時(shí),上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,并在這一刻的輸入中利用注意力門(mén)修改傳統(tǒng)的遺忘門(mén)和輸入門(mén),從而對(duì)需要注意的特征進(jìn)行加權(quán),以加快網(wǎng)絡(luò)的收斂速度。
由圖5可以看出,采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù)時(shí),在相同的輸入數(shù)據(jù)、網(wǎng)絡(luò)參數(shù)、批大小和硬件設(shè)施下訓(xùn)練1 200次后,LSTM+deepf_1模型所需時(shí)間少于傳統(tǒng)LSTM模型,同時(shí)多于GRU模型。這是因?yàn)樽⒁饬﹂T(mén)減少了模型的參數(shù)數(shù)量并降低了運(yùn)算復(fù)雜度。此外,當(dāng)運(yùn)行時(shí)間相同時(shí),因?yàn)樽⒁饬﹂T(mén)LSTM結(jié)構(gòu)使得每個(gè)時(shí)間步在計(jì)算時(shí),上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,對(duì)需要注意的特征進(jìn)行加權(quán),并在權(quán)重較小的地方利用候補(bǔ)值進(jìn)行補(bǔ)充,所以LSTM+deepf_1模型的收斂速度要明顯優(yōu)于傳統(tǒng)LSTM模型和GRU模型。
圖5 不同模型采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù)訓(xùn)練 1 200次的所用時(shí)間曲線
由圖6可以看出,LSTM+deepf_1模型的平均識(shí)別率最大,傳統(tǒng)LSTM模型次之,GRU模型最小。這是因?yàn)殡m然GRU模型參數(shù)數(shù)量減少的更多且訓(xùn)練時(shí)間更短,但是隨著數(shù)據(jù)集的不斷迭代,其模型結(jié)構(gòu)復(fù)雜度比傳統(tǒng)LSTM模型更低,平均識(shí)別率比傳統(tǒng)LSTM模型更小;LSTM+deepf_1模型通過(guò)注意力算法在每個(gè)時(shí)間步對(duì)細(xì)胞狀態(tài)進(jìn)行主動(dòng)篩選,減少了模型的參數(shù)數(shù)量和訓(xùn)練時(shí)間,顯著地提升了識(shí)別性能。
圖6 不同模型采用CASIA漢語(yǔ)情感語(yǔ)料庫(kù)的性能情況
本文提出一種基于改進(jìn)LSTM網(wǎng)絡(luò)的兒童語(yǔ)音情感識(shí)別模型,用幀級(jí)語(yǔ)音特征代替?zhèn)鹘y(tǒng)語(yǔ)音特征,將注意力機(jī)制引入LSTM網(wǎng)絡(luò)模型內(nèi)部結(jié)構(gòu)的遺忘門(mén)和輸入門(mén)并形成注意力門(mén),按照自定義的深度建立基于深度注意力門(mén)的LSTM模型。實(shí)驗(yàn)結(jié)果表明,在嬰兒哭聲和兒童情感數(shù)據(jù)庫(kù)上,本文模型的識(shí)別率顯著高于傳統(tǒng)LSTM模型,且深度模型的識(shí)別率比淺層模型的更高。在包含其他情感的CASIA數(shù)據(jù)庫(kù)上,本文模型訓(xùn)練時(shí)間短于LSTM模型,且識(shí)別率高于LSTM模型和GRU模型。下一步將把本文模型引入語(yǔ)音識(shí)別、機(jī)器翻譯以及測(cè)謊等領(lǐng)域,對(duì)連續(xù)情感的語(yǔ)料庫(kù)進(jìn)行測(cè)試和研究并改進(jìn)計(jì)算注意力分?jǐn)?shù)的模型,進(jìn)一步提升兒童語(yǔ)音情感識(shí)別率。