鐘智鵬,王海龍,蘇貴斌,柳 林,裴冬梅
內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
音樂是抒發(fā)情感的語言,曲作者和演奏者通過音樂抒發(fā)內(nèi)心情感,聆聽者通過音樂表現(xiàn)的情感與內(nèi)心情感產(chǎn)生碰撞引起共鳴,以此激發(fā)聽者對(duì)音樂情感本質(zhì)的內(nèi)在理解。音樂情感是人們?cè)谛蕾p音樂時(shí)內(nèi)在的心理情感狀態(tài)對(duì)音樂主觀的描述,受到內(nèi)部主觀因素和外部客觀因素的影響[1]。音樂情感隨著時(shí)間循序漸進(jìn)發(fā)生著變化,在抑揚(yáng)頓挫的旋律中,內(nèi)涵著情感的主觀性與復(fù)雜性,以及音樂的時(shí)序性與連續(xù)性。音樂情感特性的復(fù)雜多樣化,為聆聽者帶來豐富的情感,人具備感受豐富情感的能力,但是計(jì)算機(jī)通過智能計(jì)算感受音樂情感的能力與人相差甚遠(yuǎn),無法像人一樣感受音樂表現(xiàn)的豐富情感,因此為計(jì)算機(jī)識(shí)別音樂情感帶來了巨大挑戰(zhàn)。
計(jì)算機(jī)通過智能計(jì)算感受音樂情感的過程也稱為自動(dòng)化音樂情感識(shí)別(music emotion recognition,MER),企圖使計(jì)算機(jī)具備像人一樣識(shí)別音樂情感的能力,通過音樂情感識(shí)別網(wǎng)絡(luò)模型,對(duì)輸入至模型中的音樂情感特征進(jìn)行分析,從而識(shí)別音樂情感。目前,音樂情感識(shí)別網(wǎng)絡(luò)模型主要以循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)為基礎(chǔ)進(jìn)行構(gòu)建。歌曲中不同時(shí)間片段表示情感的形式亦不同,為了尋找片段中表示音樂情感的關(guān)鍵信息,在循環(huán)神經(jīng)網(wǎng)絡(luò)中引入卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),可以有效地捕獲局部時(shí)間片段內(nèi)關(guān)鍵的音樂情感信息[2]。歌曲中不同時(shí)間片段包含的音樂情感特征信息與音樂情感之間存在不同的相關(guān)性,為了獲取與音樂情感最相關(guān)的特征信息,在神經(jīng)網(wǎng)絡(luò)中引入注意力模型,可有效捕獲全局?jǐn)?shù)據(jù)信息中與音樂情感最相關(guān)的特征信息,進(jìn)而提升情感識(shí)別精確度[3]。從研究方法上看,近期的相關(guān)研究主要圍繞著以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行網(wǎng)絡(luò)模型設(shè)計(jì),注重局部關(guān)鍵信息及全局關(guān)鍵信息對(duì)音樂情感的影響,大部分研究針對(duì)事先已標(biāo)注的歌曲識(shí)別音樂情感,進(jìn)而驗(yàn)證模型的性能。
在實(shí)際應(yīng)用中,人類通過聽覺感知系統(tǒng)自聽到的歌曲中獲取音樂主旋律片段,考慮音樂主旋律片段中上下文的相關(guān)性,將獲得的情感信息與人腦中存儲(chǔ)的音樂情感記憶相結(jié)合,分析得到全局關(guān)鍵音樂情感信息,進(jìn)而實(shí)現(xiàn)人類感受音樂表現(xiàn)情感的過程。文中構(gòu)建CBSA(CNN BiLSTM self attention)網(wǎng)絡(luò)模型模擬人類感受音樂情感的過程,基于CNN提取音樂情感的局部關(guān)鍵特征,利用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short term memory,BiLSTM)從局部關(guān)鍵特征中學(xué)習(xí)音樂情感過去與未來的上下文序列化信息,通過引入自注意力模型(self attention,SA)獲取與音樂情感相關(guān)性較高的全局關(guān)鍵音樂情感特征信息,實(shí)驗(yàn)結(jié)果驗(yàn)證了文中方法的有效性。
在研究音樂情感識(shí)別任務(wù)中,將構(gòu)建音樂情感識(shí)別模型的方法劃分為基于傳統(tǒng)機(jī)器學(xué)習(xí)方法與基于深度學(xué)習(xí)方法兩類。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的音樂情感識(shí)別方法大多數(shù)為統(tǒng)計(jì)概率模型。傳統(tǒng)機(jī)器學(xué)習(xí)方法中手工特征的選擇與組合對(duì)模型學(xué)習(xí)效果有重要影響,適合處理小樣本數(shù)據(jù)問題。最初研究者較常使用支持向量機(jī)(support vector machines,SVM)或SVM與其他統(tǒng)計(jì)概率模型結(jié)合的方式對(duì)音樂情感進(jìn)行分類訓(xùn)練。雖然取得了不錯(cuò)的識(shí)別效果,但是情感分類標(biāo)準(zhǔn)存在不確定性。Yang等[4]針對(duì)該問題,首次提出以回歸訓(xùn)練的方式解決音樂情感識(shí)別問題,他們將不同特征工具提取的特征拼接為114維音樂特征,使用基于支持向量回歸(support vector regression,SVR)模型識(shí)別每個(gè)音樂樣本的效價(jià)值和喚醒值。Han等[5]使用7種音樂特征,基于SVR模型識(shí)別連續(xù)維度情感值,并與SVM模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明在識(shí)別維度情感時(shí)SVR比SVM具有更佳的性能效果。
近年來,隨著深度學(xué)習(xí)的發(fā)展,使用深度學(xué)習(xí)方法識(shí)別音樂情感的準(zhǔn)確率有了大幅提升[6]。深度學(xué)習(xí)的音樂情感識(shí)別方法大多數(shù)基于神經(jīng)網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)模型的設(shè)計(jì)方式影響著識(shí)別精確度,適合處理大樣本數(shù)據(jù)問題。其中較常使用的神經(jīng)網(wǎng)絡(luò)模型可分三類,分別為:(1)循環(huán)神經(jīng)網(wǎng)絡(luò);(2)組合使用卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò);(3)融合注意力模型的神經(jīng)網(wǎng)絡(luò)。
(1)循環(huán)神經(jīng)網(wǎng)絡(luò)。Coutinho等[7]在ComPareE特征集基礎(chǔ)上融合心理聲學(xué)特征,使用基于長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)實(shí)現(xiàn)對(duì)更長(zhǎng)距離的上下文信息建模,捕捉音樂的時(shí)變情感特征,進(jìn)而識(shí)別音樂情感。Li等[8]提出了一種融合超極限學(xué)習(xí)機(jī)的深度雙向長(zhǎng)短時(shí)記憶算法(deep bidirectional long short term memory extreme learning machine,DBLSTM-ELM),該算法使用超限學(xué)習(xí)機(jī)對(duì)DBLSTM訓(xùn)練不同時(shí)間距離長(zhǎng)度的音樂情感識(shí)別結(jié)果進(jìn)行融合,進(jìn)而得到最終結(jié)果。循環(huán)神經(jīng)網(wǎng)絡(luò)在解決時(shí)序問題時(shí)有著不錯(cuò)表現(xiàn),但是未考慮局部關(guān)鍵信息對(duì)音樂情感的影響,同時(shí)LSTM在訓(xùn)練時(shí)容易產(chǎn)生過擬合的風(fēng)險(xiǎn),且存在訓(xùn)練效率低和長(zhǎng)距離依賴問題。
(2)組合使用卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)??紤]局部關(guān)鍵信息對(duì)音樂情感的影響,Koh等[9]使用L3-Net卷積神經(jīng)網(wǎng)絡(luò)和VGGish卷積神經(jīng)網(wǎng)絡(luò)通過深度音頻嵌入方法聚合高維語譜圖特征,用于識(shí)別音樂情感。然而卷積神經(jīng)網(wǎng)絡(luò)未考慮音樂情感的時(shí)序性,因此單一的使用卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)并不能很好地解決音樂情感識(shí)別問題。唐霞等[10]針對(duì)此提出了一種深度學(xué)習(xí)模型,使用二維CNN和RNN相結(jié)合的方法分析語譜圖特征識(shí)別音樂情感??娫G嗟萚11]為了充分提取語譜圖時(shí)頻兩域的情感特征,提出了結(jié)合參數(shù)遷移和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,用于識(shí)別語音情感。Hizlisoy等[12]提出了卷積長(zhǎng)短時(shí)記憶深度神經(jīng)網(wǎng)絡(luò)(CLDNN),在標(biāo)準(zhǔn)聲學(xué)統(tǒng)計(jì)特征基礎(chǔ)上,結(jié)合梅爾倒譜系數(shù)(MFCC)語譜圖和梅爾濾波組能量語譜圖特征識(shí)別音樂情感。針對(duì)LSTM訓(xùn)練效率低的問題,林穎[13]在圖片識(shí)別任務(wù)中提出CNN能夠直接從輸入數(shù)據(jù)中進(jìn)行學(xué)習(xí),因此可減少空間結(jié)構(gòu)信息的參數(shù)量,進(jìn)而提高訓(xùn)練效率。
(3)融合注意力模型的神經(jīng)網(wǎng)絡(luò)。針對(duì)LSTM長(zhǎng)距離依賴問題,Chaki等[14]提出了融合注意力的LSTM混合模型,緩解LSTM隨著音樂時(shí)間輸入距離長(zhǎng)度增加,學(xué)習(xí)上下文信息能力降低的問題。傳統(tǒng)注意力模型對(duì)外部信息依賴程度高,而音樂情感特性的復(fù)雜多樣化,使整體情感表現(xiàn)并非時(shí)間與情感特征的簡(jiǎn)單匯總,很大程度上取決于與音樂情感特征信息的相關(guān)性。馮鵬宇[3]針對(duì)此問題,提出了融合自注意力的雙向門控循環(huán)單元(bidirectional gate recurrent unit,BiGRU)網(wǎng)絡(luò)模型對(duì)音樂情感及主題進(jìn)行識(shí)別,與融合傳統(tǒng)注意力的LSTM混合模型做比較,實(shí)驗(yàn)結(jié)果表明自注意力模型比傳統(tǒng)注意力模型的擬合能力強(qiáng)、訓(xùn)練效率高。
綜上,為了充分考慮音樂情感的時(shí)序性與連續(xù)性,選擇BiLSTM網(wǎng)絡(luò)為基礎(chǔ)模型,為解決LSTM未考慮局部關(guān)鍵信息對(duì)音樂情感的影響與訓(xùn)練效率低的問題,選擇融合二維CNN構(gòu)成CNN-BiLSTM模型;針對(duì)LSTM長(zhǎng)距離依賴問題,選擇融合自注意力模型構(gòu)成CNN-BiLSTM-SA模型,進(jìn)而得到CBSA網(wǎng)絡(luò)模型。該模型通過捕獲音樂情感的局部關(guān)鍵信息、序列化信息和全局關(guān)鍵信息,解決LSTM識(shí)別長(zhǎng)距離音樂情感能力差和訓(xùn)練效率低的問題,是提高長(zhǎng)距離音樂情感識(shí)別精確度與訓(xùn)練效率的一種可行方法。文中距離定義為基于同一首歌曲不同分幀間隔得到不同時(shí)間序列總長(zhǎng)度。分幀間隔大生成短距離樣本數(shù)據(jù),分幀間隔小生成長(zhǎng)距離樣本數(shù)據(jù)。
文中將每首歌曲表示為IM×N音樂情感特征矩陣的形式,其中M表示時(shí)間維度,N表示音樂情感特征維度。CBSA網(wǎng)絡(luò)模型包括二維卷積層、雙向長(zhǎng)短時(shí)記憶層和自注意力層,該模型的整體結(jié)構(gòu)如圖1所示。
圖1 CBSA網(wǎng)絡(luò)模型整體結(jié)構(gòu)Fig.1 Overall structure of CBSA network model
CBSA網(wǎng)絡(luò)模型模擬人類感受音樂表現(xiàn)情感的具體模擬過程為,首先使用二維CNN獲取歌曲中音樂主旋律片段,其次采用BiLSTM網(wǎng)絡(luò)從音樂主旋律片段中獲取音樂情感上下文信息,最后利用SA模型將獲得的音樂情感信息與人腦中存儲(chǔ)的音樂情感記憶相結(jié)合,進(jìn)而得到全局關(guān)鍵音樂情感信息。表1為基于一首歌曲CBSA網(wǎng)絡(luò)模型各層輸出的形式化定義。
表1 基于一首歌曲文中各輸出層的形式化定義Table 1 Formal definitions of output layers based on a song
2.1.1 二維卷積層
為了從音樂情感特征矩陣的時(shí)間與音樂情感特征兩個(gè)維度獲取音樂情感局部關(guān)鍵特征,因此使用二維CNN進(jìn)行處理,其結(jié)構(gòu)如圖2所示。以識(shí)別一首歌曲的連續(xù)維度情感值為例,首先將IM×N音樂情感特征矩陣輸入到二維卷積層,經(jīng)過K(3×3)濾波器提取音樂情感特征并保留邊緣信息;其次使用BatchNorm2d進(jìn)行數(shù)據(jù)歸一化處理,保證卷積后的輸出數(shù)據(jù)分布一致;然后通過ReLU激活函數(shù)加入非線性因素,提高二維卷積層表達(dá)音樂情感的能力;最后選擇最大池化(MaxPooling)方式降低矩陣維度保留音樂情感特征中某些關(guān)鍵信息,進(jìn)而得到局部關(guān)鍵音樂情感特征矩陣NA×B。
圖2 二維卷積層Fig.2 Two-dimensional convolutional layer
2.1.2 雙向長(zhǎng)短時(shí)記憶層
LSTM傳輸方向?yàn)樽郧跋蚝髥蜗騻鬏敚欢魳非楦袃?nèi)部相關(guān)性較強(qiáng),當(dāng)前時(shí)刻狀態(tài)不僅與前一時(shí)刻狀態(tài)有關(guān)也與后一時(shí)刻狀態(tài)有關(guān)。因此采用兩個(gè)方向的LSTM層搭建BiLSTM網(wǎng)絡(luò)[15],識(shí)別過去與未來的音樂情感信息,實(shí)現(xiàn)音樂情感上下文信息建模。
LSTM循環(huán)單元結(jié)構(gòu)包括三個(gè)“門”和兩個(gè)狀態(tài),分別為輸入門it、遺忘門ft、輸出門ot、內(nèi)部狀態(tài)ct和候選狀態(tài),其結(jié)構(gòu)如圖3。假設(shè)t時(shí)刻外部狀態(tài)為ht,上一時(shí)刻的外部狀態(tài)為ht-1,LSTM的計(jì)算過程為0,結(jié)合上一時(shí)刻的外部狀態(tài)ht-1和當(dāng)前時(shí)刻輸入音樂情感特征向量nt,通過公式(1)~(4)計(jì)算LSTM循環(huán)單元內(nèi)三個(gè)門值及候選狀態(tài)值,利用遺忘門ft和輸入門it通過公式(5)更新記憶單元ct,使用輸出門ot通過公式(6)將內(nèi)部狀態(tài)的音樂情感信息傳遞給外部狀態(tài)ht。
圖3 LSTM循環(huán)單元結(jié)構(gòu)圖Fig.3 Structure diagram of LSTM cycle unit
其中,Wx,Ux和bx中的x∈{i,f,o,c},Wx為當(dāng)前時(shí)刻權(quán)重矩陣,Ux為上一時(shí)刻權(quán)重矩陣,bx為偏置向量,σ為Sigmoid函數(shù),tanh為tanh函數(shù)。
BiLSTM通過Forward層與Backward層的LSTM,使用公式(7)與公式(8)分別對(duì)過去和未來的音樂情感信息進(jìn)行提取與保存,單層BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖4。假設(shè)Forward層按時(shí)間順序,Backward層按時(shí)間逆序,t時(shí)刻的隱層狀態(tài)定義為h1t和h2t,根據(jù)兩個(gè)方向的隱層狀態(tài)計(jì)算t時(shí)刻雙向長(zhǎng)短時(shí)記憶層輸出向量lt,如公式(9)所示:
圖4 BiLSTM神經(jīng)網(wǎng)絡(luò)Fig.4 BiLSTM neural network
其中,Wx(x∈{1,2})為當(dāng)前時(shí)刻權(quán)重矩陣,U1和U2分別為上一時(shí)刻與下一時(shí)刻權(quán)重矩陣,f代表隱藏層激活函數(shù),Wtx(x∈{1,2})為當(dāng)前時(shí)刻隱層狀態(tài)權(quán)重矩陣,bx(x∈{0,1,2})為偏置向量。經(jīng)過兩層BiLSTM得到序列化音樂情感特征矩陣LD×H。
2.1.3 自注意力層
雙向長(zhǎng)短時(shí)記憶層輸出的音樂情感特征矩陣LD×H輸入至自注意力層。將L中每一時(shí)刻的音樂情感特征向量作為查詢向量,與歌曲中不同時(shí)刻的音樂情感特征向量進(jìn)行相似度評(píng)分,通過加權(quán)平均后得到音樂情感全局關(guān)鍵特征信息。自注意力模型結(jié)構(gòu)如圖5所示。
圖5 自注意力模型Fig.5 SelfAttention model
圖5中每個(gè)方框外標(biāo)有矩陣的行數(shù)和列數(shù),其計(jì)算過程如下:
(1)對(duì)于輸入矩陣L,首先進(jìn)行線性映射,從而得到Q、K和V矩陣,如公式(10)~(12)所示:
其中,Wq、Wk和Wv分別為線性映射參數(shù)矩陣。Q、K和V分別是查詢向量、鍵向量和值向量構(gòu)成的矩陣。
(2)K的轉(zhuǎn)置矩陣和Q點(diǎn)乘得到音樂情感特征相似度評(píng)分矩陣ScoreH×H。當(dāng)點(diǎn)乘結(jié)果很大時(shí),存在SoftMax分布不均衡從而帶來梯度過小的問題,針對(duì)該問題使用矩陣Q的行標(biāo)度平方根K縮放點(diǎn)乘結(jié)果平滑梯度,如公式(13)所示:
(3)使用SoftMax將音樂情感相似度評(píng)分矩陣Score歸一化為概率分布矩陣,通過公式(14)將概率分布矩陣與V點(diǎn)乘得到音樂情感全局關(guān)鍵特征矩陣AV×H。
損失函數(shù)作為深度學(xué)習(xí)模型訓(xùn)練中不可或缺的部分,在回歸模型訓(xùn)練中常使用均方誤差(mean squared error,MSE)和平均絕對(duì)誤差(mean absolute error,MAE)作為損失函數(shù)。MAE對(duì)離群點(diǎn)不敏感,在梯度更新過程中梯度不隨損失值減小而減小,不利于模型收斂;MSE對(duì)離群點(diǎn)比較敏感,在梯度更新過程中隨著損失值的減小梯度也在減小,有利于模型收斂。離群點(diǎn)是分布規(guī)律明顯異于主流數(shù)據(jù)的極少部分?jǐn)?shù)據(jù),其中常常蘊(yùn)含著事物的變化趨勢(shì),因而不能簡(jiǎn)單地等同于噪聲[16]。因音樂情感特性的復(fù)雜多樣化,所以音樂情感信息中的離群點(diǎn)可能是音樂情感突然發(fā)生轉(zhuǎn)折變化的點(diǎn),但也不排除是噪聲數(shù)據(jù)的可能。從對(duì)離群點(diǎn)敏感程度與收斂性兩方面考慮,文中選擇MSE作為模型訓(xùn)練損失函數(shù),其計(jì)算式如公式(15)所示:
其中,N是音樂情感數(shù)據(jù)點(diǎn)總數(shù)量,yi是第i個(gè)音樂情感數(shù)據(jù)點(diǎn)的標(biāo)簽真值,y?i是第i個(gè)音樂情感數(shù)據(jù)點(diǎn)的回歸值。
實(shí)驗(yàn)對(duì)EmoMusic數(shù)據(jù)集和DEAM數(shù)據(jù)集的音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。為保證CBSA網(wǎng)絡(luò)模型分析的音樂情感特征信息具有標(biāo)準(zhǔn)規(guī)范性,選擇經(jīng)過研究者驗(yàn)證并取得顯著成果的音頻情感特征集eGeMAPS,以該特征集為標(biāo)準(zhǔn),自預(yù)處理后的音頻數(shù)據(jù)中提取音樂情感特征。
3.1.1 數(shù)據(jù)集
實(shí)驗(yàn)使用EmoMusic[17]數(shù)據(jù)集和DEAM[18]數(shù)據(jù)集來訓(xùn)練評(píng)估CBSA網(wǎng)絡(luò)模型在情感回歸中識(shí)別的性能。EmoMusic數(shù)據(jù)集由744首歌曲組成,自歌曲15 s后截取45 s長(zhǎng)的音樂片段。由Amazon Mechanical Turk眾包工作人員標(biāo)注,每個(gè)片段至少有10人標(biāo)注,每段標(biāo)有一個(gè)靜態(tài)VA(valence-arousal)值和間隔為0.5 s的動(dòng)態(tài)VA值。DEAM數(shù)據(jù)集在EmoMusic數(shù)據(jù)集基礎(chǔ)上擴(kuò)充至1 744首歌曲,除了歌曲數(shù)量增加,在標(biāo)注方式及音樂片段長(zhǎng)度方面均一樣。為了獲取長(zhǎng)距離音樂情感信息,實(shí)驗(yàn)基于連續(xù)時(shí)間識(shí)別靜態(tài)音樂情感,對(duì)真值標(biāo)簽進(jìn)行歸一化處理使其分布在[0,1]區(qū)間內(nèi)。數(shù)據(jù)集劃分方式按照8∶2的比例隨機(jī)分成2份,分別為訓(xùn)練集和測(cè)試集。
3.1.2 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)采用數(shù)據(jù)增強(qiáng)的方式對(duì)音頻數(shù)據(jù)文件進(jìn)行預(yù)處理。數(shù)據(jù)增強(qiáng)是指將一系列變形數(shù)據(jù)應(yīng)用于實(shí)驗(yàn)數(shù)據(jù)集[19],其基本原則是新數(shù)據(jù)的標(biāo)簽不會(huì)因?yàn)樽冃味l(fā)生變化[20]。音頻數(shù)據(jù)增強(qiáng)方法可以明顯增強(qiáng)模型的泛化能力[21],減少訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間誤差差距,提高模型性能。在預(yù)處理階段使用AudioSegment工具將壓縮有損的.mp3音頻文件轉(zhuǎn)換成無損不壓縮的.wav音頻文件,既保證了音頻的無損性,又方便在Python中處理;利用Audiomentations工具在無損不壓縮的音頻數(shù)據(jù)內(nèi)添加高斯噪聲、改變播放速度、音調(diào)及時(shí)間滾軸以此進(jìn)行音頻數(shù)據(jù)增強(qiáng)。
3.1.3 特征集及特征提取
實(shí)驗(yàn)將eGeMAPS特征集作為提取音樂情感特征的標(biāo)準(zhǔn)。該特征集是一個(gè)音頻情感特征集,由7個(gè)譜特征、11個(gè)頻率相關(guān)特征和7個(gè)能量/振幅相關(guān)特征通過統(tǒng)計(jì)計(jì)算得到88個(gè)統(tǒng)計(jì)聲學(xué)特征[22]。特征集中的特征及特征之間的相關(guān)性經(jīng)過理論與實(shí)踐驗(yàn)證是一個(gè)具有標(biāo)準(zhǔn)規(guī)范性的音頻情感特征集[23]。在語音情感識(shí)別[24]和音樂情感識(shí)別[25]等音頻情感相關(guān)的研究中被廣泛使用?;趀GeMAPS特征集使用OpenSimle工具從音頻數(shù)據(jù)集中提取連續(xù)時(shí)間的音樂情感特征。采取簡(jiǎn)便變異方式,僅考慮使用不同距離長(zhǎng)度的樣本特征識(shí)別音樂情感,不考慮分幀間隔時(shí)間是否合理,并忽略最后一幀信息。將每首歌曲表示為時(shí)間×特征的形式,保存到.csv文件。
3.1.4 模型參數(shù)及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)設(shè)置模型優(yōu)化算法為Adam、權(quán)重衰減系數(shù)weight_decay=0.000 1、學(xué)習(xí)率lr=0.000 1和每個(gè)批次4個(gè)樣本,構(gòu)建模型過程中使用ReLU作為激活函數(shù),訓(xùn)練輪數(shù)Epoch為80?;趀GeMAPS特征集,自源音樂中提取88維特征,以99時(shí)間距離長(zhǎng)度為例,模型具體參數(shù)如表2所示,其中CNN和BiLSTM每個(gè)部分都由兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成,因?yàn)樯弦粚虞敵鰹橄乱粚虞斎?,所以使用Connection作為連接層避免輸入輸出層的重復(fù)表示。自注意力模型中的Q=K=V,使用求和方式聚合輸出層時(shí)間維度信息。因?yàn)閎atch_size為每層tensor的第0維度且數(shù)值相同,所以不予呈現(xiàn)在模型訓(xùn)練參數(shù)內(nèi)。采用均方根誤差(root mean square error,RMSE)作為識(shí)別精確度指標(biāo),R2決定系數(shù)(R-squared,R2)作為模型擬合優(yōu)度指標(biāo)。
表2 模型參數(shù)表Table 2 Model parameter
由于不確定CBSA網(wǎng)絡(luò)模型是否可以提高訓(xùn)練效率和音樂情感識(shí)別精確度。為了驗(yàn)證CBSA網(wǎng)絡(luò)模型及各部分作用的有效性,自EmoMusic數(shù)據(jù)集中提取不同時(shí)間距離長(zhǎng)度的音樂情感特征,以此對(duì)CBSA網(wǎng)絡(luò)模型及其消融模型進(jìn)行實(shí)驗(yàn)。首先將BiLSTM作為基準(zhǔn)模型,其次向BiLSTM中分別添加二維CNN和SA,最后得到消融模型分別為BiLSTM、CNN-BiLSTM及BiLSTM-SA。通過消融實(shí)驗(yàn)在時(shí)間距離長(zhǎng)度為99、199和299的數(shù)據(jù)上評(píng)估識(shí)別精確度RMSE、擬合優(yōu)度R2及訓(xùn)練效率。使用每個(gè)模型在訓(xùn)練過程中最小Loss的RMSE和R2做比較,訓(xùn)練效率(training efficiency,TE)為訓(xùn)練總時(shí)長(zhǎng)與訓(xùn)練總輪數(shù)之比,即模型訓(xùn)練一輪的時(shí)長(zhǎng),單位為s。
基于不同距離長(zhǎng)度使用各消融模型,在效價(jià)維度(Valence)和喚醒維度(Arousal)的回歸評(píng)估指標(biāo)結(jié)果如表3和表4所示,CBSA網(wǎng)絡(luò)模型在三種不同距離長(zhǎng)度的數(shù)據(jù)集識(shí)別性能均優(yōu)于或接近于其他三種消融模型,并且隨著距離長(zhǎng)度增加識(shí)別精確度也在提高。
表3 在效價(jià)維度中各消融模型回歸評(píng)估指標(biāo)結(jié)果Table 3 Regression evaluation index results of each ablation model in valence dimension
3.2.1 驗(yàn)證二維CNN與Self Attention有效性
結(jié)合表4以Arousal在99距離長(zhǎng)度為例,相對(duì)于使用BiLSTM的RMSE,CNN-BiLSTM和BiLSTM-SA的RMSE分別降低了0.004 2和0.009 8。這項(xiàng)結(jié)果表明了二維CNN和SA對(duì)識(shí)別精確度有提升效果。融合SA模型在三種距離長(zhǎng)度的表現(xiàn)來看,相對(duì)于BiLSTM,BiLSTM-SA在三種距離長(zhǎng)度的RMSE分別降低了0.009 8、0.009 3和0.012 3;融合CNN模型在三種距離長(zhǎng)度的表現(xiàn)來看,相對(duì)于BiLSTM,CNN-BiLSTM在三種距離長(zhǎng)度的RMSE分別降低了0.004 2、0.005 6和0.008 9,訓(xùn)練效率降低了1.7、4和6.4,這兩項(xiàng)結(jié)果再次證明了融合SA和二維CNN有益于提升CBSA模型的整體性能。
3.2.2 分析各模型RMSE曲線和R2曲線
結(jié)合表4以Arousal在99距離長(zhǎng)度為例,CBSA模型的RMSE相對(duì)于BiLSTM、CNN-BiLSTM和BiLSTMSA分別降低了0.009 8、0.005 6和0,如圖6所示,雖然CBSA模型與BiLSTM-SA最小Loss的RMSE相同,但是CBSA模型的RMSE整體趨勢(shì)低于BiLSTM-SA,這項(xiàng)結(jié)果證明了CBSA模型的整體識(shí)別精確度接近或高于BiLSTM-SA;CBSA模型的R2相對(duì)于BiLSTM、CNNBiLSTM和BiLSTM-SA分別升高了0.03、0.014和-0.049,如圖7所示,雖然CBSA模型與BiLSTM-SA相比低了0.049,但是R2受多種因素影響,該結(jié)果僅說明CBSA模型擬合優(yōu)度低于BiLSTM-SA,不影響兩者識(shí)別精確度的比較。
表4 在喚醒維度中各消融模型回歸評(píng)估指標(biāo)結(jié)果Table 4 Regression evaluation index results of each ablation model in arousal dimension
圖6 Arousal中各模型99距離長(zhǎng)度的RMSEFig.6 RMSE of 99 distance lengths of each model in Arousal
圖7 Arousal中各模型99距離長(zhǎng)度的R2Fig.7 R2 of 99-distance length of each model in Arousal
3.2.3 各模型不同距離長(zhǎng)度的RMSE與訓(xùn)練效率
結(jié)合表4以Arousal為例,Arousal中隨著距離長(zhǎng)度增加各模型最小Loss的RMSE變化如圖8,BiLSTM在299距離長(zhǎng)度的RMSE相對(duì)于199距離長(zhǎng)度升高了0.001 5,這項(xiàng)結(jié)果證明了超過一定距離長(zhǎng)度后,LSTM存在學(xué)習(xí)能力下降問題。使用BiLSTM-SA、CNN-BiLSTM和CBSA網(wǎng)絡(luò)模型,相對(duì)于99距離長(zhǎng)度,在199和299距離長(zhǎng)度的RMSE值分別降低了0.001 1、0.002 6,0.003、0.004 8和0.001、0.003,這項(xiàng)結(jié)果證明了相對(duì)于短距離,使用長(zhǎng)距離數(shù)據(jù)可以提高識(shí)別精確度。隨著距離長(zhǎng)度增加CBSA模型識(shí)別精確度逐漸高于其他消融模型,進(jìn)一步證明了CBSA模型可提高長(zhǎng)距離音樂情感識(shí)別精確度。在訓(xùn)練效率方面,圖9可以清晰看到每個(gè)模型隨著距離長(zhǎng)度增加訓(xùn)練效率逐漸升高。相對(duì)BiLSTM-SA,CBSA模型在不同距離長(zhǎng)度的訓(xùn)練效率降低了1.8、4和6.4,這項(xiàng)結(jié)果證明了融合CNN可以降低模型復(fù)雜度并提高訓(xùn)練效率。
圖8 Arousal中各模型不同距離長(zhǎng)度的RMSEFig.8 RMSE of each model in Arousal with different distance
圖9 Arousal中各模型不同距離長(zhǎng)度的訓(xùn)練效率Fig.9 Training efficiency of each model with different distance lengths in Arousal
綜上,雖然CNN-BiLSTM比CBSA模型訓(xùn)練效率低,但 是RMSE較高;BiLSTM-SA與CBSA模 型 的RMSE基本接近,但是訓(xùn)練效率較低;因此模擬人類感受音樂表現(xiàn)情感的過程構(gòu)建CBSA網(wǎng)絡(luò)模型在識(shí)別連續(xù)時(shí)間的長(zhǎng)距離靜態(tài)音樂情感中存在一定優(yōu)勢(shì),可提高長(zhǎng)距離音樂情感識(shí)別精確度與訓(xùn)練效率。
3.3.1 BiLSTM與CNN不同層數(shù)的識(shí)別精確度對(duì)比
調(diào)整確定BiLSTM和CNN網(wǎng)絡(luò)層數(shù)的取值,使CBSA模型達(dá)到更高的音樂情感識(shí)別精確度,為此首先進(jìn)行BiLSTM網(wǎng)絡(luò)層數(shù)實(shí)驗(yàn),在確定該網(wǎng)絡(luò)層數(shù)基礎(chǔ)上,確定CBSA模型中CNN的網(wǎng)絡(luò)層數(shù)。為保證時(shí)間距離長(zhǎng)度適中,選擇199距離長(zhǎng)度的RMSE作為模型層數(shù)評(píng)估指標(biāo),其中BiLSTM網(wǎng)絡(luò)的RMSE為單獨(dú)使用該網(wǎng)絡(luò)的識(shí)別精確度;2D-CNN網(wǎng)絡(luò)的RMSE是在BiLSTM層數(shù)確定的基礎(chǔ)上,調(diào)整CBSA模型中使用不同層數(shù)CNN網(wǎng)絡(luò)的識(shí)別精確度。
實(shí)驗(yàn)分別對(duì)比了1~3層的BiLSTM識(shí)別精確度以及使用1~3層CNN時(shí)CBSA模型的識(shí)別精確度,試圖找出BiLSTM與CNN的層數(shù)對(duì)識(shí)別精確度的影響,實(shí)驗(yàn)結(jié)果如表5所示。以Arousal為例,兩層的BiLSTM網(wǎng)絡(luò)相對(duì)于一層和三層BiLSTM網(wǎng)絡(luò)的RMSE降低了0.015 7和0.001 9;兩層的CNN網(wǎng)絡(luò)相對(duì)于一層和三層CNN網(wǎng)絡(luò)的RMSE降低了0.001 8和0.001,這項(xiàng)結(jié)果證明了兩層的BiLSTM和兩層的CNN識(shí)別精確度均高于其他兩個(gè)網(wǎng)絡(luò)層數(shù),并且增加層數(shù)并沒有使識(shí)別結(jié)果更加優(yōu)秀。因此實(shí)驗(yàn)基于兩層BiLSTM網(wǎng)絡(luò),使用兩層CNN網(wǎng)絡(luò),構(gòu)建CNN-BiLSTM模型,使其與自注意力模型相結(jié)合得到CBSA模型,進(jìn)行音樂情感回歸訓(xùn)練。
表5 不同BiLSTM和CNN層數(shù)的識(shí)別精確度比較Table 5 Comparison of recognition accuracy of different BiLSTM and CNN layers
3.3.2 數(shù)據(jù)增強(qiáng)對(duì)MER的影響
音頻數(shù)據(jù)增強(qiáng)方法包括音頻加噪、音頻變速、改變音調(diào)和音頻時(shí)間翻轉(zhuǎn)。文獻(xiàn)[21]提出同一種數(shù)據(jù)增強(qiáng)方式使用過多將產(chǎn)生大量的相似數(shù)據(jù),易導(dǎo)致模型識(shí)別性能降低。為此同一種數(shù)據(jù)增強(qiáng)方法僅選擇一種增強(qiáng)方式對(duì)原音頻進(jìn)行操作。實(shí)驗(yàn)在EmoMusic數(shù)據(jù)集的原音頻基礎(chǔ)上,使用Audiomentations工具的AddGaussian-Noise、TimeStretch、PitchShift和Shift以上四個(gè)函數(shù)對(duì)原音頻進(jìn)行添加高斯噪聲、改變播放速度、調(diào)節(jié)音調(diào)和時(shí)間翻轉(zhuǎn)的操作,每種數(shù)據(jù)增強(qiáng)方法生成一組數(shù)據(jù),填充至原音頻數(shù)據(jù)集。實(shí)驗(yàn)以原音頻數(shù)據(jù)識(shí)別精確度為基準(zhǔn),使用CBSA模型在訓(xùn)練299距離長(zhǎng)度數(shù)據(jù)時(shí),最小Loss的RMSE為評(píng)估指標(biāo),對(duì)使用各音頻數(shù)據(jù)增強(qiáng)方法的識(shí)別結(jié)果進(jìn)行對(duì)比。根據(jù)對(duì)比結(jié)果選擇超過基準(zhǔn)精確度的數(shù)據(jù)增強(qiáng)方法,一同對(duì)原音頻進(jìn)行數(shù)據(jù)增強(qiáng)操作,生成一組增強(qiáng)數(shù)據(jù),作為訓(xùn)練評(píng)估CBSA網(wǎng)絡(luò)模型在情感回歸中識(shí)別的性能。
實(shí)驗(yàn)使用CBSA模型,訓(xùn)練原音頻與增強(qiáng)音頻的組合數(shù)據(jù),對(duì)比使用不同音頻數(shù)據(jù)增強(qiáng)方法的識(shí)別精確度,結(jié)果如表6所示。以Arousal為例,未增強(qiáng)數(shù)據(jù)的RMSE相對(duì)于加噪、變速、改變音調(diào)和時(shí)間翻轉(zhuǎn)的增強(qiáng)數(shù)據(jù)分別升高了0.003、0.004 2、0.001 6和0.003 5,這項(xiàng)結(jié)果證明了使用加噪、變速、調(diào)節(jié)音調(diào)和時(shí)間翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方法可提升音樂情感識(shí)別精確度。根據(jù)該結(jié)論,使用上述四種數(shù)據(jù)增強(qiáng)方法一同對(duì)原音頻進(jìn)行操作,生成一組增強(qiáng)數(shù)據(jù)填充至原音頻數(shù)據(jù)集,使用這種數(shù)據(jù)增強(qiáng)方法的RMSE相對(duì)于僅使用加噪、變速、改變音調(diào)和時(shí)間翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方法分別降低了0.002、0.000 8、0.003 4和0.001 5,這項(xiàng)結(jié)果證明了使用上述四種數(shù)據(jù)增強(qiáng)方法同時(shí)對(duì)原音頻數(shù)據(jù)進(jìn)行增強(qiáng)操作,比單獨(dú)使用其中一種數(shù)據(jù)增強(qiáng)方法的識(shí)別精確度高。
表6 音頻數(shù)據(jù)增強(qiáng)方法的識(shí)別精確度對(duì)比Table 6 Comparison of recognition accuracy of audio data enhancement methods
3.3.3 損失函數(shù)對(duì)MER的影響
從音樂情感特性的復(fù)雜多樣化以及接受離群點(diǎn)的敏感程度與收斂性考慮,為驗(yàn)證基于eGeMAPS特征集得到的音樂情感特征中的離群點(diǎn)是否為影響音樂情感變化趨勢(shì)的轉(zhuǎn)折點(diǎn)。在CBSA模型中分別使用MAE與MSE作為模型訓(xùn)練損失函數(shù),以RMSE為識(shí)別精確度評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果如圖10所示,可清晰看出,Valence和Arousal使用MSELoss相較于MAELoss取得了不錯(cuò)的識(shí)別精確度。因此基于eGeMAPS特征集提取的音樂情感特征信息具有標(biāo)準(zhǔn)規(guī)范性,信息中包含的離群點(diǎn)蘊(yùn)含著音樂情感變化趨勢(shì),可以提高模型識(shí)別精確度。
圖10 Valence和Arousal對(duì)比MSE與MAEFig.10 Valence and Arousal compare MSE and MAE
3.3.4 文中方法與其他方法對(duì)比
為進(jìn)一步驗(yàn)證模型性能的有效性,基于同一評(píng)估指標(biāo),使用EmoMusic數(shù)據(jù)集和DEAM數(shù)據(jù)集,將文中方法與數(shù)據(jù)集基線及當(dāng)前性能較好的音樂情感識(shí)別方法進(jìn)行比較,下文給出了各對(duì)比方法及其簡(jiǎn)介。
(1)MLR、BLSMT-RNN、SVR和GPR[26]。上述四個(gè)模型分別為數(shù)據(jù)集基線以及慕尼黑工業(yè)大學(xué)、會(huì)津大學(xué)和烏得勒支大學(xué)訓(xùn)練評(píng)估EmoMusic數(shù)據(jù)集使用的識(shí)別方法。
(2)ConvNet_D-SVM[27]?;诳斩淳矸e(dilated convolution,ConvNet_D)增加網(wǎng)絡(luò)層感受野的方式探索情感計(jì)算的上下文信息,將其輸入到SVM回歸模型。
(3)AC2DConv[28]。采用音頻和計(jì)算二維卷積(audio and computed 2D convolution,AC2DConv)網(wǎng)絡(luò)模型分析由原始音頻、音頻信號(hào)及頻譜圖組合而成的音頻特征表示形式。
(4)ResNets-audioLIME[29]。采用源分離解釋器audioLIME與殘差網(wǎng)絡(luò)(residual networks,ResNets)相結(jié)合分析中級(jí)感知特征和頻譜圖特征。
上述方法的評(píng)估指標(biāo)結(jié)果如表7所示,與其他方法相比,文中方法在音樂情感識(shí)別任務(wù)中具有最小的RMSE和最大R2,可以提高音樂情感識(shí)別精確度,模型擬合度相對(duì)較好。
表7 模型精確度匯總Table 7 Model accuracy summary
文章模擬人感受音樂表現(xiàn)情感的過程,針對(duì)音樂情感識(shí)別中長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的長(zhǎng)距離依賴和訓(xùn)練效率低問題,提出了CBSA網(wǎng)絡(luò)模型識(shí)別長(zhǎng)距離音樂情感。在音頻預(yù)處理階段,使用數(shù)據(jù)增強(qiáng)方式減少訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間誤差差距;在音樂情感特征提取階段,使用eGeMAPS特征集,保證提取的音樂情感特征具有標(biāo)準(zhǔn)規(guī)范性;在音樂情感識(shí)別階段,文中提出了CBSA網(wǎng)絡(luò)模型用于識(shí)別音樂情感,首先通過二維CNN提取音樂情感中局部關(guān)鍵特征,然后采用BiLSTM神經(jīng)網(wǎng)絡(luò)從局部關(guān)鍵特征中學(xué)習(xí)音樂情感過去與未來的上下文序列化信息;再利用自注意力模型從音樂情感序列化特征信息中獲取與音樂情感相關(guān)性較高的全局關(guān)鍵特征信息,提高識(shí)別精確度及訓(xùn)練效率。
在不同的時(shí)間距離長(zhǎng)度中,通過消融實(shí)驗(yàn)驗(yàn)證了二維CNN和自注意力模型的作用,以及CBSA模型相對(duì)于其他消融模型在訓(xùn)練效率和識(shí)別精確度方面的優(yōu)勢(shì);同時(shí)發(fā)現(xiàn)基于同一首歌曲,使用長(zhǎng)距離特征信息表示方式可以提高音樂情感識(shí)別精確度。通過對(duì)比實(shí)驗(yàn)結(jié)果可知,文中識(shí)別音樂情感的方法比其他方法識(shí)別精確度高;同時(shí),驗(yàn)證了基于eGeMAPS特征集提取的音樂情感特征信息包含的離群點(diǎn)有助于發(fā)現(xiàn)音樂情感變化趨勢(shì)。綜上,基于CBSA音樂情感識(shí)別網(wǎng)絡(luò)模型可以從較長(zhǎng)距離的連續(xù)時(shí)間中獲取音樂情感信息規(guī)律進(jìn)而提高識(shí)別精確度和訓(xùn)練效率,有效地實(shí)現(xiàn)了音樂的情感回歸,為音樂情感識(shí)別方向提供了一個(gè)新的可行性思路。未來研究可考慮結(jié)合音頻、歌詞文本和視頻畫面的多模態(tài)方法,從多角度對(duì)音樂情感進(jìn)行全面描述,以此提高音樂情感識(shí)別精確度。