孫穎,馬浩杰,張雪英
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西太原 030024)
情感識(shí)別是人工智能領(lǐng)域不可或缺的一部分,使計(jì)算機(jī)能夠識(shí)別、理解和表達(dá)人類語言中的情感是人工智能領(lǐng)域的重要研究方向。構(gòu)建能夠識(shí)別多變且復(fù)雜的情感模型[1]是當(dāng)前研究的熱點(diǎn)問題之一。
隨著深度學(xué)習(xí)的發(fā)展,越來越多的學(xué)者通過深度學(xué)習(xí)建模進(jìn)行語音情感識(shí)別,例如,楊明極等[2]提出使用卷積神經(jīng)網(wǎng)絡(luò)從原信號(hào)中提取特征,并結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)獲取語音信號(hào)上下文信息,最終識(shí)別率達(dá)到91.74%;余莉萍等[3]提出將注意力機(jī)制引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,將遺忘門和輸入門轉(zhuǎn)換為注意力門,得到基于改進(jìn)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的語音情感識(shí)別模型,在CASIA 中文數(shù)據(jù)庫(kù)上的識(shí)別效果要優(yōu)于傳統(tǒng)LSTM 識(shí)別模型;Jian Wang[4]提出深度信念網(wǎng)絡(luò)(DBN)與淺層神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行語音情感識(shí)別,最高識(shí)別率可達(dá)95%;張昕然等[5]提出基于深度信念網(wǎng)絡(luò)的特征層融合方法,通過多個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證,特征融合后的特征子集相對(duì)傳統(tǒng)特征的識(shí)別率可提升4.6%。以上模型僅考慮了獨(dú)立情感狀態(tài),忽視了情感狀態(tài)之間的關(guān)聯(lián)性[6],例如喜極而泣、樂極生悲等。湯宇豪等[7]提出基于情感嵌入視覺注意力模型的連續(xù)維度情感識(shí)別方法,基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的視覺注意力模型利用上下文信息對(duì)情感顯著區(qū)域進(jìn)行加強(qiáng),最后通過K-means 聚類方法將前一時(shí)刻的情感映射到具體的情感類比中,與使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的當(dāng)前人臉特征融合,進(jìn)一步學(xué)習(xí)情感顯著特征,強(qiáng)化上下文之間的情感連續(xù)性并在已有公開的國(guó)際音視頻情感挑戰(zhàn)賽AVEC2016 和AVEC2017 兩個(gè)數(shù)據(jù)庫(kù)上驗(yàn)證了模型的有效性;孫穎等[8]提出一種深度情感關(guān)聯(lián)模型考慮到了情感之間的相互關(guān)聯(lián),該模型使用多層限制玻爾茲曼機(jī)與關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)(Interactive Cognitive Network,ICN),在TYUT1.0 情感語料庫(kù)和CASIA 數(shù)據(jù)庫(kù)中平均識(shí)別率相較深度信念網(wǎng)絡(luò)最高可提高6.06%,該模型固定使用中國(guó)科學(xué)院心理所的中文簡(jiǎn)化版PAD 情緒量表表示情感之間的關(guān)聯(lián),而對(duì)于不同情感數(shù)據(jù)庫(kù),甚至相同數(shù)據(jù)庫(kù)中的不同語句,其PAD 值都是不同的,僅使用固定PAD 值勢(shì)必對(duì)識(shí)別結(jié)果造成影響。
為更好地進(jìn)行語音情感識(shí)別,該文提出用PAD情感預(yù)測(cè)值內(nèi)各情感預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型。以PAD 情感維度預(yù)測(cè)值作為關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)情感之間權(quán)值計(jì)算的輸入,實(shí)現(xiàn)權(quán)值動(dòng)態(tài)計(jì)算;使用遺傳算法(GA)優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù),避免參數(shù)選擇盲目性,提高模型識(shí)別率。最后,設(shè)置四組實(shí)驗(yàn)方案進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證該文所提出模型的有效性以及普適性。
深度情感關(guān)聯(lián)模型結(jié)合多層限制玻爾茲曼機(jī)與關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)[8],如圖1 所示。多層限制玻爾茲曼機(jī)[9]可以有效地反映非線性映射、去除輸入信息的冗余、實(shí)現(xiàn)特征降維。關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)(ICN)由輸入層和輸出層組成,輸入層為情感特征,輸出層為情感類別,輸入層和輸出層之間直接連接,輸出層情感之間相互連接以表示情感之間的關(guān)聯(lián)性。
圖1 深度情感關(guān)聯(lián)模型
離散的情感類別只是對(duì)基本情感的分類,忽視了不同情感之間的關(guān)系。PAD 三維情感空間可以連續(xù)且平穩(wěn)的表達(dá)不同類別的情感,進(jìn)而可表示情感之間的關(guān)系,其中P表示愉悅度(pleasure-displeasure),A表示激活度(arousal-nonarousal),D表示優(yōu)勢(shì)度(dominance-submissiveness)。相較人工標(biāo)注PAD 值的耗時(shí)長(zhǎng)、主觀性強(qiáng),PAD 預(yù)測(cè)模型更快捷、更客觀且可以應(yīng)用到不同數(shù)據(jù)庫(kù)。該文所使用PAD 預(yù)測(cè)模型以情感特征和人工標(biāo)注PAD 值作為模型輸入預(yù)測(cè)PAD 值[10-11],模型如圖2 所示。
圖2 PAD預(yù)測(cè)模型
具體工作流程如下:
1)特征降維:通過灰色關(guān)聯(lián)分析得到情感特征與P、A、D 之間的關(guān)聯(lián)度并按大小排序,使用回歸模型得到前m維特征的MAE 誤差,取最小MAE 對(duì)應(yīng)維數(shù)特征作為特征子集;將特征子集作為主成分分析的輸入,得到最優(yōu)情感特征子集。
2)PAD 維度預(yù)測(cè):將最優(yōu)特征子集分為訓(xùn)練集和測(cè)試集輸入到PSO-LSSVM 模型,得到測(cè)試集PAD預(yù)測(cè)值;計(jì)算預(yù)測(cè)值與人工標(biāo)注PAD 值聚類中心之間的距離,大于設(shè)定閾值的歸類為混合情感,小于閾值的歸類為與其距離最近的情感類別,進(jìn)而得到對(duì)應(yīng)情感特征;將情感特征作為其對(duì)應(yīng)情感PSOLSSVM 模型的輸入,得到最終PAD 維度預(yù)測(cè)值。
遺傳算法(Genetic Algorithm,GA)[13-14]的概念是約翰·霍蘭德提出。遺傳算法借鑒自然遺傳和自然選擇的原理,通過選擇、交叉、變異操作對(duì)編碼后的參數(shù)(二進(jìn)制編碼)優(yōu)化,并用概率規(guī)則來引導(dǎo)種群進(jìn)化,隨著進(jìn)化代數(shù)的增加,種群的進(jìn)化方向也逐漸確定。遺傳算法流程圖如圖3 所示。
圖3 遺傳算法流程圖
深度情感關(guān)聯(lián)模型所使用的PAD 情感維度值是基本情感PAD 值而非情感語音數(shù)據(jù)庫(kù)的PAD 預(yù)測(cè)值,會(huì)對(duì)情感分類結(jié)果產(chǎn)生一定影響。故該文提出用PAD 情感維度預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型,并用遺傳算法對(duì)模型超參數(shù)進(jìn)行優(yōu)化。其框圖如圖4 所示。
圖4 模型框圖
具體步驟如下:
1)特征提?。禾崛∏楦姓Z音數(shù)據(jù)庫(kù)的情感特征(韻律特征、MFCC 特征、非線性屬性特征及非線性幾何特征)。
2)PAD 情感維度值預(yù)測(cè):將情感特征和人工標(biāo)注PAD 值作為輸入,使用灰色關(guān)聯(lián)分析和主成分分析去除特征冗余,選出最優(yōu)特征子集,通過聚類PSO-LSSVM 模型預(yù)測(cè)PAD 維度值。
3)情感之間權(quán)值計(jì)算:對(duì)各類情感PAD 預(yù)測(cè)值取均值,得到代表各類情感的PAD 維度值,然后在PAD 三維空間中計(jì)算各類情感維度值之間的歐氏距離,如式(1)所示,使用各類情感間的歐氏距離計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)(ICN)情感之間的權(quán)值,如式(2)所示。
式中:d為兩類情感之間的距離,(x1,y2,z1) 和(x2,y2,z2) 分別代表兩類情感在PAD 三維空間中的坐標(biāo)。
式中:wij為兩情感類別之間的關(guān)聯(lián)度;dmax為所用PAD 三維空間的最大距離,即PAD 三維空間對(duì)角線長(zhǎng)度;dij為兩類情感在PAD三維空間中的距離。
4)超參數(shù)優(yōu)化:使用遺傳算法對(duì)深度情感關(guān)聯(lián)模型的超參數(shù)(隱含層節(jié)點(diǎn)數(shù)、RBM 訓(xùn)練次數(shù)、ICN訓(xùn)練次數(shù)、動(dòng)量因子、學(xué)習(xí)率)進(jìn)行優(yōu)化,以使用PAD預(yù)測(cè)值的深度情感關(guān)聯(lián)模型為GA 的適應(yīng)函數(shù),準(zhǔn)確率為適應(yīng)度。選取適應(yīng)度最好的個(gè)體設(shè)置為深度情感關(guān)聯(lián)模型的超參數(shù)。
5)情感分類:將情感特征及其PAD 預(yù)測(cè)值作為深度情感關(guān)聯(lián)模型的輸入。
TYUT2.0 情感語音數(shù)據(jù)庫(kù)通過截取廣播劇的方式獲得初選情感語音數(shù)據(jù)庫(kù),而后通過模糊綜合評(píng)價(jià)與層次分析法、熵權(quán)法相結(jié)合建立的情感語音模糊綜合評(píng)價(jià)模型對(duì)初選數(shù)據(jù)庫(kù)進(jìn)行模糊評(píng)價(jià),最終篩選得到高質(zhì)量的情感語音數(shù)據(jù)庫(kù)[15],其中包含了“高興、憤怒、悲傷、驚奇”4 種情感。
柏林德語情感語料庫(kù)[16]由10 名演員(5 男5 女)通過回憶自身經(jīng)歷對(duì)悲傷、憤怒、高興、害怕、自然情感模擬得到的,該語音庫(kù)真實(shí)度高,受到業(yè)內(nèi)廣泛使用。
該文選取TYUT2.0 以及柏林德語情感語音數(shù)據(jù)庫(kù)中共有的情感“悲傷、憤怒、高興”進(jìn)行實(shí)驗(yàn),其中TYUT2.0 情感語音數(shù)據(jù)庫(kù)中的悲傷(62 句)、憤怒(58句)、高興(57 句),柏林德語情感語料庫(kù)(EMO-DB)中悲傷(52 句)、憤怒(77 句)、高興(68 句),并以3∶1 的比例設(shè)置訓(xùn)練集和測(cè)試集。
以TYUT2.0 數(shù)據(jù)庫(kù)為基礎(chǔ),通過心理學(xué)實(shí)驗(yàn)的方法對(duì)情感語音進(jìn)行P、A、D 維度值標(biāo)注,得到PAD三維情感模型。實(shí)驗(yàn)選取100 名在校大學(xué)生(44 名男生,56 名女生,身心健康)對(duì)TYUT2.0 數(shù)據(jù)庫(kù)每一條語句按照1~5 的標(biāo)注范圍進(jìn)行PAD 維度標(biāo)注,每一條語句的P、A、D 值取100 位同學(xué)標(biāo)注值的均值得到PAD 人工標(biāo)注值;該文使用其中悲傷、憤怒、高興3 種情感共177 句的PAD 標(biāo)注值,如圖5 所示。
圖5 PAD維度空間情感分布
提取TYUT2.0 數(shù)據(jù)庫(kù)和柏林?jǐn)?shù)據(jù)庫(kù)的韻律特征、MFCC、非線性屬性特征[17]、非線性幾何特征[18]作為模型的輸入。情感特征維數(shù)及內(nèi)容如表1 所示。
表1 語音情感特征
為驗(yàn)證該文提出模型的有效性,設(shè)計(jì)四組實(shí)驗(yàn)方案進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)方案如下:
方案一:使用中文簡(jiǎn)化版PAD 量表的值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)權(quán)值,根據(jù)經(jīng)驗(yàn)設(shè)置深度情感關(guān)聯(lián)模型超參數(shù);
方案二:使用中文簡(jiǎn)化版PAD 量表的值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)權(quán)值,使用遺傳算法優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù);
方案三:使用PAD 預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)權(quán)值,根據(jù)經(jīng)驗(yàn)設(shè)置深度情感關(guān)聯(lián)模型超參數(shù);
方案四:使用PAD 預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)權(quán)值,使用遺傳算法優(yōu)化深度情感關(guān)聯(lián)模型超參數(shù)。
中文簡(jiǎn)化版PAD 量表的值與PAD 預(yù)測(cè)值如表2所示。
表2 PAD情緒量表
方案一至方案四模型超參數(shù)設(shè)置范圍如表3 所示。設(shè)置隱含層節(jié)點(diǎn)數(shù)可改變多層受限玻爾茲曼機(jī)的結(jié)構(gòu),該文設(shè)置兩層受限玻爾茲曼機(jī),其中每一層的可見層以及隱含層節(jié)點(diǎn)數(shù)依次減少;動(dòng)量因子可使參數(shù)值的修改方向由上次參數(shù)值的修改方向和本次梯度方向共同決定,也會(huì)避免局部最優(yōu);學(xué)習(xí)率決定了模型的收斂速度,過大會(huì)導(dǎo)致算法不穩(wěn)定,過小會(huì)使降低收斂速度;RBM 以及ICN 的訓(xùn)練次數(shù)決定模型訓(xùn)練次數(shù)以及耗時(shí)長(zhǎng)短,較好的訓(xùn)練次數(shù)可更快地得到模型最優(yōu)解。
表3 參數(shù)取值范圍
以TYUT2.0 數(shù)據(jù)庫(kù)和EMO-DB 數(shù)據(jù)庫(kù)為基礎(chǔ)進(jìn)行實(shí)驗(yàn),方案一至方案四實(shí)驗(yàn)結(jié)果如表4 所示。
表4 實(shí)驗(yàn)識(shí)別結(jié)果
從表中TYUT2.0 數(shù)據(jù)庫(kù)的識(shí)別結(jié)果來看,4 種方案識(shí)別率較為均衡,僅方案一高興識(shí)別率較低。對(duì)比方案一、二以及方案三、四,從平均識(shí)別率來看,方案二達(dá)到78.72%,高出方案一6.38%,方案四達(dá)到80.85%,高出方案三4.25%;從各情感的識(shí)別率看,使用了遺傳算法優(yōu)化的方案二及方案四的3 種情感識(shí)別率均大于或等于未優(yōu)化的方案一和方案三,且均有較好的識(shí)別率,說明使用遺傳算法優(yōu)化模型超參數(shù)的有效性。對(duì)比方案二、四以及方案一、三,從平均識(shí)別率來看,方案四高出方案二2.13%,方案三比方案一高4.26%,且使用PAD 預(yù)測(cè)值計(jì)算情感間權(quán)值的方案四及方案三各類情感的識(shí)別率均大于或等于使用基本情感PAD 值計(jì)算情感間權(quán)值的方案二及方案一,由此可看出該文使用PAD 預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)情感之間權(quán)值的有效性。從整體識(shí)別結(jié)果看,方案四的識(shí)別率達(dá)到80.85%,相較方案一、方案二和方案三提高了8.51%、2.13%及4.25%;并且方案四的悲傷、憤怒以及高興情感的識(shí)別率均高于或等于方案一、二和三。實(shí)驗(yàn)結(jié)果表明,方案四優(yōu)于其他三種方案,說明該文所提出模型的優(yōu)越性。
從表中EMO-DB 數(shù)據(jù)庫(kù)的識(shí)別結(jié)果來看,四種方案的識(shí)別效果都較好,平均識(shí)別率均在85%以上,各類情感的識(shí)別率也在80%以上。方案一、二、三、四在“悲傷”情感的識(shí)別率均達(dá)到100%;在“憤怒”的識(shí)別效果上看,方案四識(shí)別率達(dá)94.74%,相較方案一、三高出10.53%,相比方案二高出5.27%;在“高興”的識(shí)別效果上看,雖然方案四與方案二、三的識(shí)別率相同,但識(shí)別率較好,達(dá)到了93.75%,相較方案一81.25%的識(shí)別率高出12.5%。從平均識(shí)別率看,方案四識(shí)別率達(dá)到95.74%,相較方案一、二、三高出8.51%、2.12%、4.25%,由此可看出使用該文提出模型的有效性。
綜上所述,該文所提模型在TYUT2.0 數(shù)據(jù)庫(kù)以及EMO-DB 數(shù)據(jù)庫(kù)均有較好的識(shí)別效果且優(yōu)于其他三組實(shí)驗(yàn)方案,可體現(xiàn)出該文所提出PAD 情感維度預(yù)測(cè)值作為關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)的權(quán)值,構(gòu)建深度情感關(guān)聯(lián)模型的有效性以及普適性。
如表5 所示,為該文模型與文獻(xiàn)[8]中模型對(duì)中科院PAD 情緒量表中的“憤怒”、“高興”兩種情感的識(shí)別結(jié)果對(duì)比,可進(jìn)一步證明該文模型的有效性。
表5 中科院PAD情緒量表中兩種情感的結(jié)果對(duì)比
鑒于深度情感關(guān)聯(lián)模型的關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)權(quán)值設(shè)置固定,該文首先用PAD 情感維度預(yù)測(cè)模型得到各類情感的PAD 預(yù)測(cè)值,使用預(yù)測(cè)值計(jì)算關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)情感間的權(quán)值;然后用遺傳算法對(duì)深度情感關(guān)聯(lián)模型的超參數(shù)優(yōu)化,得到最優(yōu)超參數(shù);最后,以TYUT2.0 情感語音庫(kù)和EMO-DB 數(shù)據(jù)庫(kù)為基礎(chǔ),設(shè)置四組實(shí)驗(yàn)方案,通過對(duì)比實(shí)驗(yàn)驗(yàn)證使用動(dòng)態(tài)權(quán)值且優(yōu)化參數(shù)的深度情感關(guān)聯(lián)模型的有效性與普適性。實(shí)驗(yàn)表明,PAD 維度下的深度情感關(guān)聯(lián)模型的識(shí)別效果優(yōu)于其他三組實(shí)驗(yàn),說明PAD 預(yù)測(cè)值可更好地體現(xiàn)情感之間的聯(lián)系,可更好地輔助模型進(jìn)行情感識(shí)別。但是,關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)不僅有輸出情感之間的權(quán)值,還有輸入特征和輸出情感之間的權(quán)值,且輸入特征和輸出情感之間的權(quán)值有隨機(jī)性。故如何更好表示關(guān)聯(lián)認(rèn)知網(wǎng)絡(luò)輸入特征與輸出情感之間的權(quán)值是下一步的研究重點(diǎn)。此外,使用腦電特征輔助語音情感特征進(jìn)行情感識(shí)別也可作為一個(gè)研究方向。