亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于寬深學(xué)習(xí)網(wǎng)絡(luò)的音樂(lè)情感識(shí)別

2022-07-06 08:09:10王晶晶

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年3期

王晶晶，黃如

（華東理工大學(xué)信息科學(xué)與工程學(xué)院，上海 200237）

從古至今，音樂(lè)一直都是人類活動(dòng)中不可或缺的一部分，不僅可以代表作者表達(dá)自己的內(nèi)心情感活動(dòng)，也可以使傾聽者接受音樂(lè)的力量，與之共鳴，從而達(dá)到一些正面的精神引導(dǎo)。在這個(gè)追求智能化的時(shí)代，眾多影視作品和多媒體視頻層出不窮，音樂(lè)情感識(shí)別也可以根據(jù)語(yǔ)音視頻內(nèi)容所傳遞的情感進(jìn)行實(shí)時(shí)配樂(lè)。

目前對(duì)音樂(lè)情感識(shí)別的研究主要分為兩個(gè)方面，一個(gè)是如何更好地提取音樂(lè)的情感特征；一個(gè)是如何提高情感識(shí)別的分類器效果。陳穎呈等[1]為了確保音頻特征提取的魯棒性和泛化能力，提高特征在表現(xiàn)音樂(lè)非線性深層語(yǔ)義的特性，在音頻特征提取階段采用了基于深度學(xué)習(xí)的音級(jí)輪廓(Deep Pitch Class Profile, DPCP)特征。Weninger等[2]使用音樂(lè)的底層特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以此完成音樂(lè)情感識(shí)別。Markov等[3]使用高斯過(guò)程(Gaussian Process, GP)和支持向量機(jī)(Support Vector Machines,SVM)來(lái)研究不同的特征，包括梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient, LPC)、音色特征及其各種組合特征，然后用于音樂(lè)曲風(fēng)分類和VA(Valence-Arousal)情感估計(jì)。從他們的實(shí)驗(yàn)可以看出，GP方法的分類結(jié)果確實(shí)比SVM方法優(yōu)秀，但是GP方法的算法復(fù)雜度要高于SVM方法，所以在大規(guī)模任務(wù)中很難實(shí)際應(yīng)用。Chen等[4]將節(jié)奏、力度、音色、音高和音調(diào)相關(guān)的特征拼接為38維的音樂(lè)特征，使用基于深度高斯過(guò)程(Deep Gaussian Process, DGP)方法進(jìn)行音樂(lè)情感識(shí)別，為每一個(gè)情感種類構(gòu)建一個(gè)GP回歸器，使用回歸方式來(lái)分類音樂(lè)情感。雖然這種方法達(dá)到了比較不錯(cuò)的情感分類效果，但是模型訓(xùn)練完成之后不能擴(kuò)充音樂(lè)樣本。Li等[5]提出了一種基于DBLSTM(Deep Bidirectional Long Short-Term Memory)的方法來(lái)動(dòng)態(tài)預(yù)測(cè)音樂(lè)的情感，該方法根據(jù)不同尺度的時(shí)間序列來(lái)訓(xùn)練多個(gè)DBLSTM，然后使用超限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)將多個(gè)尺度的DBLSTM的結(jié)果進(jìn)行融合得到最終結(jié)果。魏琛等[6]和宋振振等[7]則利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)及其變體來(lái)自動(dòng)提取情感樣本的抽象特征，省去了人工選擇特征與降維的過(guò)程。Sarkar等[8]遵循基于深度學(xué)習(xí)的方法提出了一種圍繞VGGNet構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)和一種新穎的Post-Processing技術(shù)來(lái)改善音樂(lè)情感識(shí)別的性能。唐霞等[9]則提出了一種深度學(xué)習(xí)模型，該模型使用音樂(lè)信號(hào)特征語(yǔ)譜圖作為音樂(lè)特征輸入,使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)語(yǔ)譜圖進(jìn)行特征提取和情感分類。Issa等[10]引入了一種新的體系結(jié)構(gòu)，從聲音文件中提取MFCC、色譜圖、梅爾尺度頻譜圖、Tonnetz表示和頻譜對(duì)比度特征，然后將它們輸入到一維的卷積神經(jīng)網(wǎng)絡(luò)，之后利用一種增量方法來(lái)修改初始模型，以提高分類精度。該方法與某些前期的方法不同，所有模型都可以直接處理原始聲音數(shù)據(jù)，而無(wú)需轉(zhuǎn)換為視覺(jué)表示。Nalini等[11]將MFCC和RP (Residual Phase)結(jié)合提取音樂(lè)情感特征，在自聯(lián)想神經(jīng)網(wǎng)絡(luò)(Autoassociative Neural Network,AANN)、SVM和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network, RBFNN)3種算法模型上進(jìn)行情感分類訓(xùn)練，結(jié)果表明融合特征識(shí)別結(jié)果一致優(yōu)于單一音樂(lè)情感特征，但是在傳統(tǒng)深度學(xué)習(xí)中訓(xùn)練模型普遍耗時(shí)較長(zhǎng)，效率低下，尤其是在動(dòng)態(tài)增加樣本數(shù)量方面。大多數(shù)音樂(lè)用于情感識(shí)別的算法都從兩個(gè)方面入手：首先是特征提取，盡量將音樂(lè)信號(hào)中包含的情感特征信息提取出來(lái)，用作模型輸入；其次是分類器設(shè)計(jì)，最大化音樂(lè)情感識(shí)別分類的準(zhǔn)確率，設(shè)計(jì)更好的學(xué)習(xí)模型。這些算法雖然取得了不錯(cuò)的識(shí)別效果，但是仍然有可改進(jìn)的地方：(1)提取的音樂(lè)情感特征種類較多，而算法的靈活性不足，不能適配各種特征。(2)深度學(xué)習(xí)網(wǎng)絡(luò)搭建簡(jiǎn)單，但是內(nèi)部結(jié)構(gòu)十分復(fù)雜而且超參數(shù)的數(shù)量龐大，不易修改，從理論上分析其內(nèi)部結(jié)構(gòu)是一件非常困難的事情。(3)情感是比較主觀的，如何更好地提取其音樂(lè)特征，從哪方面入手進(jìn)行創(chuàng)新也是不容易把握的。

寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法，寬度學(xué)習(xí)結(jié)構(gòu)簡(jiǎn)單，處理數(shù)據(jù)快速。Tang等[12]使用隨機(jī)卷積神經(jīng)網(wǎng)絡(luò)對(duì)音頻進(jìn)行特征提取，然后使用寬度學(xué)習(xí)網(wǎng)絡(luò)來(lái)進(jìn)行標(biāo)簽預(yù)測(cè)，將深度學(xué)習(xí)和寬度學(xué)習(xí)進(jìn)行順序拼接，有效地提高了模型分類精度和訓(xùn)練效率。為了同時(shí)兼顧深度學(xué)習(xí)和寬度學(xué)習(xí)的優(yōu)點(diǎn)，Chen等[13]提出了一種基于卷積特征映射節(jié)點(diǎn)的級(jí)聯(lián)寬度學(xué)習(xí)網(wǎng)絡(luò)，實(shí)驗(yàn)證明該網(wǎng)絡(luò)在特征提取和訓(xùn)練效率方面大大超過(guò)了傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)。受此啟發(fā)，本文將LSTM[14]和BLS[15]相結(jié)合，使用LSTM作為BLS的特征映射節(jié)點(diǎn)，搭建了一種新型寬深學(xué)習(xí)網(wǎng)絡(luò)(Long Short-Term Memory-Broad Learning System, LSTM-BLS)來(lái)提高音樂(lè)情感分類精度。LSTM-BLS使用增量學(xué)習(xí)算法來(lái)處理新增節(jié)點(diǎn)的訓(xùn)練，不用重新處理所有數(shù)據(jù)，大大縮短了模型運(yùn)行時(shí)間。首先，在音樂(lè)特征提取階段，使用基于內(nèi)容的聲學(xué)特征MFCC來(lái)增加情感的敏感度，從音樂(lè)信號(hào)導(dǎo)出殘差相位來(lái)提取出特定的音樂(lè)情感信息，將兩者進(jìn)行加權(quán)結(jié)合作為模型輸入；其次將輸入數(shù)據(jù)進(jìn)行LSTM模型訓(xùn)練，提取出音樂(lè)的前后文關(guān)系，生成特征節(jié)點(diǎn)集作為BL增強(qiáng)節(jié)點(diǎn)的輸入，經(jīng)過(guò)映射生成增強(qiáng)層輸出，將特征節(jié)點(diǎn)與增強(qiáng)節(jié)點(diǎn)集的組合使用全局違逆得到最終輸出；最后利用訓(xùn)練好的模型對(duì)音樂(lè)情感的種類進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果證明本文算法增加的音樂(lè)特征更有效地提取出了音頻信息，構(gòu)建的LSTM-BLS提高了音樂(lè)情感識(shí)別的精度以及效率。

1 算法模型

1.1 特征提取

1.1.1 MFCC 目前基于內(nèi)容的聲學(xué)特征主要分為音色、節(jié)奏、音高、和聲和時(shí)間特征這幾類。音色特征包括倒譜特征，比如MFCC；節(jié)奏內(nèi)容特征主要包括節(jié)拍數(shù)、節(jié)奏直方圖等；音高內(nèi)容特征主要表現(xiàn)為頻率信息；和聲特征包括色度圖；時(shí)間特征包括時(shí)間質(zhì)心[16]。其中MFCC利用了聽覺(jué)原理以及倒譜的去相關(guān)特性，在眾多實(shí)驗(yàn)中脫穎而出，成為語(yǔ)音和音樂(lè)相關(guān)識(shí)別任務(wù)中最成功的頻譜特征之一。為了提取該特征，首先，對(duì)音頻信號(hào)進(jìn)行預(yù)處理，進(jìn)行分幀加窗，使用Blackman-Harris窗口將采樣率為44.1 kHz的原始信號(hào)分割成2 048個(gè)樣本的幀，將音頻信號(hào)加窗后，每幀信號(hào)的兩端會(huì)漸變?yōu)?，因此信號(hào)兩端會(huì)被削弱。為了克服這個(gè)問(wèn)題，分幀時(shí)相鄰幀會(huì)重疊一部分，一般取幀長(zhǎng)的一半或固定為10 ms。本文取相鄰幀重疊50%，既能保證減免頻譜泄露，也能減少不必要的工作量。然后，在每個(gè)幀上應(yīng)用離散短時(shí)傅里葉變換來(lái)獲得頻譜能量，再通過(guò)k1個(gè)梅爾濾波器頻率響應(yīng)來(lái)加權(quán)，進(jìn)一步濾波以生成梅爾譜圖，其中心頻率和帶寬大致與聽覺(jué)臨界帶濾波器相匹配。最后，將整個(gè)梅爾譜圖序列分割成L個(gè)擁有k2個(gè)幀大小的塊，沿時(shí)間軸表示為Iq,q=1,···,L。因此，每個(gè)塊的大小為k1×k2。

1.1.2 RP 根據(jù)文獻(xiàn)[11]，RP定義為從音樂(lè)信號(hào)的線性預(yù)測(cè)(Linear Predictive, LP)殘差中導(dǎo)出的解析信號(hào)的相位函數(shù)的余弦。在時(shí)刻t，音樂(lè)樣本s(t) 可以估計(jì)為過(guò)去p個(gè)樣本的線性組合，所以預(yù)測(cè)的音樂(lè)樣本可以表示為

其中：p為預(yù)測(cè)的時(shí)刻順序；系數(shù) {ak},k=1,2,···,p，為線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficients, LPCs)的集合。

預(yù)測(cè)誤差e(t) 定義為實(shí)際值s(t) 與預(yù)測(cè)值的差值，公式如下：

通過(guò)最小化預(yù)測(cè)誤差e(t) 得到LPCs，即音樂(lè)信號(hào)的LP殘差r(t) 。由r(t) 可以得到解析信號(hào)ra(t) ：

有很多關(guān)于音樂(lè)情感的信息就存在于LP殘差中，通過(guò)計(jì)算剩余相位可以幫助提取出音樂(lè)信號(hào)中存在的情感特定信息。剩余相位即解析信號(hào)相位的余弦，計(jì)算公式如下：

文獻(xiàn)[17]已經(jīng)證明了RP中包含與MFCC特征互補(bǔ)的音頻特定信息，而RP定義為從音樂(lè)信號(hào)的LP殘差導(dǎo)出的解析信號(hào)的相位函數(shù)的余弦。在深度學(xué)習(xí)模型中的識(shí)別率表明，音樂(lè)信號(hào)中存在特定的情感信息，而RP可以提取出這些特定信息。將MFCC特征和RP特征進(jìn)行加權(quán)結(jié)合得到最終輸出，可以提高模型對(duì)音樂(lè)信號(hào)包含的情感特征提取能力。特征提取流程圖如圖1所示。

1.2 模型概述

1.2.1 BLS BLS的建立過(guò)程如下：首先網(wǎng)絡(luò)的特征節(jié)點(diǎn)由輸入數(shù)據(jù)映射的特征組合而成；其次，將映射特征節(jié)點(diǎn)的輸出集輸入到增強(qiáng)層被增強(qiáng)為隨機(jī)生成權(quán)重的增強(qiáng)節(jié)點(diǎn)；最后，通過(guò)對(duì)映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出集進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出。給定訓(xùn)練數(shù)據(jù) {X,}∈RN×(M+C)和n個(gè)特征節(jié)點(diǎn)映射 ?i，則第i個(gè)映射的特征為

其中：權(quán)重Wei和偏置項(xiàng) βei是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。

把Zn[Z1,Z2,···,Zn] 看作是n組特征節(jié)點(diǎn)的集合，然后，將Zn連接到增強(qiáng)節(jié)點(diǎn)層中。

同樣，第j個(gè)增強(qiáng)節(jié)點(diǎn)集的輸出為

其中： ξj是非線性激活函數(shù)；Whj為權(quán)重； βhj為偏置項(xiàng)；權(quán)重和偏置項(xiàng)是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。然后，將增強(qiáng)節(jié)點(diǎn)層的輸出看作Hm[H1,H2,···,Hm]。

為了簡(jiǎn)化，在不失去通用性的情況下，省略特征映射 ?i的下標(biāo)和 ξj激活函數(shù)，而且在建立模型時(shí)也可以根據(jù)需要選擇不同的 ?i和 ξj激活函數(shù)。

為了獲得輸入數(shù)據(jù)的稀疏表示，應(yīng)用線性逆問(wèn)題對(duì)隨機(jī)初始化的權(quán)重矩陣Wei進(jìn)行微調(diào)，因此，BLS的輸出Y有以下形式：其中：Wm是連接特征節(jié)點(diǎn)層和增強(qiáng)節(jié)點(diǎn)層到輸出層的權(quán)重，Wm[Zn,Hm]+Y，可以很容易地利用偽逆[Zn,Hm]+來(lái)計(jì)算。

1.2.2 LSTM-BLS 本文利用LSTM作為寬度學(xué)習(xí)網(wǎng)絡(luò)的特征節(jié)點(diǎn)，將上一層LSTM的輸出和輸入數(shù)據(jù)X作為下一層LSTM的輸入，并將特征節(jié)點(diǎn)的最后一層數(shù)據(jù)輸出連接到增強(qiáng)節(jié)點(diǎn)。最后通過(guò)直接結(jié)合映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出來(lái)得到最終結(jié)果輸入，然后進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 LSTM-BLS網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Netuork structure of LSTM-BLS model

LSTM-BLS網(wǎng)絡(luò)模型理論推導(dǎo)如下：首先計(jì)算特征映射節(jié)點(diǎn)Zt，根據(jù)LSTM的網(wǎng)絡(luò)更新方式對(duì)輸入層信息進(jìn)行計(jì)算，公式如(10)所示。

其中：wxa為輸入數(shù)據(jù)與隱藏層之間的權(quán)值；wha為上一時(shí)刻的輸出權(quán)值；ba為偏置量。

對(duì)輸入門進(jìn)行計(jì)算，公式如(11)所示。其中：wxi為輸入門與輸入信息之間的權(quán)值；whi為輸入門與上一時(shí)刻輸出之間的權(quán)值；bi為偏置量。

同理，對(duì)遺忘門進(jìn)行計(jì)算，公式如(12)所示。

其中：wx f為遺忘門與輸入信息之間的權(quán)值；whf為遺忘門與上一時(shí)刻輸出之間的權(quán)值；bf為偏置量。

對(duì)Cell中的狀態(tài)值進(jìn)行計(jì)算，公式如(13)所示。

對(duì)輸出門狀態(tài)值進(jìn)行計(jì)算，公式如(14)所示。

每一組節(jié)點(diǎn)都使用相同的計(jì)算過(guò)程，所有n組特征映射節(jié)點(diǎn)都表示為

其次，預(yù)期網(wǎng)絡(luò)通過(guò)公式(17)進(jìn)行功能增強(qiáng)

利用偽逆 [Zn,Hm]+可以很容易地計(jì)算出權(quán)重Wm[Zn,Hm]+Y。LSTM-BLS總體模型框圖如圖3所示。

圖3 LSTM-BLS模型框圖Fig. 3 Block diagram of LSTM-BLS model

2 結(jié)果與討論

2.1 數(shù)據(jù)集

本文使用Emotion音樂(lè)數(shù)據(jù)集來(lái)測(cè)試評(píng)估深度學(xué)習(xí)復(fù)雜模型以及寬深學(xué)習(xí)網(wǎng)絡(luò)在情感分類中的性能。該數(shù)據(jù)集由2 906首歌曲組成，共包含4個(gè)情感類別，憤怒歌曲639首、快樂(lè)歌曲753首、放松歌曲750首和悲傷歌曲764首。為了實(shí)驗(yàn)的便利和整齊性，只使用每首歌曲的前30 s，而不足30 s的則進(jìn)行補(bǔ)零操作。數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)分成3份，分別為訓(xùn)練、驗(yàn)證和測(cè)試集，可以最大化保證實(shí)驗(yàn)的公平性。

2.2 參數(shù)設(shè)置

為了驗(yàn)證基于寬深學(xué)習(xí)網(wǎng)絡(luò)的模型分類有效性，選取了4個(gè)復(fù)雜網(wǎng)絡(luò)進(jìn)行對(duì)比，分別為文獻(xiàn)[12]提出的RCNNBL結(jié)構(gòu)、文獻(xiàn)[18]提出的基于三通道(MCC-3)模型和文獻(xiàn)[19]提出的MCCLSTM模型結(jié)構(gòu)、文獻(xiàn)[13]提出的級(jí)聯(lián)卷積特征映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)(Broad Learning Systems: Cascade of Convolution Feature Mapping Nodes, CCFBLS)，以及兩個(gè)基礎(chǔ)深度學(xué)習(xí)網(wǎng)絡(luò)CNN和LSTM。其中RCNNBL模型、MCC-3模型和MCCLSTM模型結(jié)構(gòu)的參數(shù)設(shè)置分別參考各自文獻(xiàn)，LSTM-BLS和CCFBLS的參數(shù)設(shè)置見(jiàn)表1。實(shí)驗(yàn)在具有12 GB內(nèi)存的NVIDIATITANXP GPU上進(jìn)行。

表1 模型參數(shù)設(shè)置Table 1 Parameters for models

在預(yù)處理階段，采用40個(gè)梅爾濾波器組和80個(gè)幀長(zhǎng)提取MFCC特征，采用16階LP來(lái)導(dǎo)出LP殘差。利用一階數(shù)字濾波器和20 ms幀大小，相鄰幀之間重疊50%，通過(guò)預(yù)先強(qiáng)調(diào)輸入音樂(lè)數(shù)據(jù)，從情感音樂(lè)信號(hào)中提取LP殘差，提取每個(gè)幀的最高Hilbert包絡(luò)生成RP特征，將兩種特征進(jìn)行加權(quán)結(jié)合提取出特征時(shí)序圖，對(duì)每種類型的音樂(lè)信號(hào)進(jìn)行特征提取，得到時(shí)序特征圖。圖4分別示出了從4種情感類型的音頻信號(hào)中提取出的3幀時(shí)序特征。網(wǎng)絡(luò)的輸入?yún)?shù)形式是[batch_size, height, width, channels]，根據(jù)電腦內(nèi)存大小以及分類模型的復(fù)雜度，batch_size取128，也就是一次輸入128張的時(shí)序圖。在LSTM-BLS網(wǎng)絡(luò)中使用3層LSTM進(jìn)行節(jié)點(diǎn)映射，輸出維度分別為400、200和100，經(jīng)過(guò)實(shí)驗(yàn)對(duì)比選取效果最好的模型結(jié)構(gòu)，然后將LSTM的輸出映射到增強(qiáng)層。在CCFBLS網(wǎng)絡(luò)中共有4個(gè)卷積塊，每個(gè)CNN塊都包括卷積層、池化層和Dropout層，卷積層中濾波器的數(shù)量為64，形狀固定為 3×3 ，步幅為1，池化方式選擇最大池化，Dropout參數(shù)為0.5，其中4個(gè)卷積輸出都連接到CCFBLS的輸出節(jié)點(diǎn)。

圖4 4種情感音樂(lè)的時(shí)序特征圖Fig. 4 Timing features extracted from four music emotions

2.3 實(shí)驗(yàn)結(jié)果

由于不確定哪種LSTM模型結(jié)構(gòu)和寬度學(xué)習(xí)系統(tǒng)相結(jié)合可以達(dá)到更高的音樂(lè)情感分類準(zhǔn)確率，本文首先進(jìn)行LSTM模型結(jié)構(gòu)實(shí)驗(yàn)，用于選擇映射層LSTM節(jié)點(diǎn)個(gè)數(shù)。實(shí)驗(yàn)分別對(duì)比了1～3層的LSTM和寬度學(xué)習(xí)相結(jié)合的模型，試圖找出LSTM層數(shù)對(duì)總體模型分類準(zhǔn)確率的影響，分類結(jié)果如圖5所示?？梢钥闯?，兩層LSTM模型的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他兩個(gè)模型，并且增加層數(shù)并沒(méi)有使結(jié)果更加優(yōu)秀反而增加了訓(xùn)練時(shí)間，因此選擇兩層LSTM模型輸出作為映射層輸入，與寬度學(xué)習(xí)系統(tǒng)相結(jié)合進(jìn)行音樂(lè)情感分類訓(xùn)練。

圖5 不同LSTM層數(shù)的分類準(zhǔn)確率比較Fig. 5 Classification accuracy comparison of different LSTM layers

將本文模型與文獻(xiàn)[12]中的4種分類模型(MCCLSTM、MCCBL、RCNNLSTM、RCNNBL)相比，評(píng)價(jià)所提出的分類模型的準(zhǔn)確性和效果。為了進(jìn)行公平的比較，對(duì)每個(gè)方案進(jìn)行10倍的交叉驗(yàn)證，以獲得分類精度，分類結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明本文模型在音樂(lè)情感分類方面遠(yuǎn)遠(yuǎn)優(yōu)于基于深度學(xué)習(xí)的模型，也比RCNNBL模型的分類效果好得多。因?yàn)橐魳?lè)的情感分析本就非常主觀，所以在音樂(lè)情感識(shí)別中，如何使用物理參數(shù)從音頻信號(hào)的特征來(lái)描述音樂(lè)情感非常困難，而且對(duì)于音樂(lè)情感分類，目前研究結(jié)果并不能使人滿意，只能是在微小的優(yōu)勢(shì)中辨別出可能的方向。

從表2可以看出，LSTM在音樂(lè)情感分類方面擁有微弱的優(yōu)勢(shì)，而MCCLSTM[19]使用多通道CNN結(jié)合LSTM進(jìn)行音樂(lè)情感識(shí)別分類任務(wù)，雖然比LSTM的識(shí)別準(zhǔn)確率要穩(wěn)定一點(diǎn)，但是復(fù)雜的模型將會(huì)增加模型訓(xùn)練時(shí)間，因此本文選擇使用LSTM和寬度學(xué)習(xí)進(jìn)行結(jié)合。

表2 模型分類準(zhǔn)確率比較Table 2 Classification accuracy comparison of different models

使用級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的寬度學(xué)習(xí)系統(tǒng)在音樂(lè)情感分類中已經(jīng)展露出明顯的優(yōu)勢(shì)，對(duì)比其他復(fù)雜模型，音樂(lè)情感分類的準(zhǔn)確率有了大幅提升，從而證明了寬深學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)越性。而本文提出的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力，它的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單，模型訓(xùn)練時(shí)間短，從而提高了識(shí)別效率。LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀，它能提取出音樂(lè)的時(shí)序關(guān)系，從而最大保留音樂(lè)情感特征，將兩者的優(yōu)勢(shì)相結(jié)合，得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂(lè)情感分類任務(wù)。圖6示出了不同模型分類準(zhǔn)確性的比較結(jié)果，LSTM-BLS模型的識(shí)別準(zhǔn)確率比MCCLSTM提高了10%左右，比RCNNBL提高了7.2%左右，比CCFBLS提高了6.5%左右，從而證明了LSTM-BLS模型更準(zhǔn)確地實(shí)現(xiàn)了音樂(lè)的情感分類。

圖6 不同模型分類準(zhǔn)確性分布比較Fig. 6 Classification accuracy distribution comparison of different models

2.4 訓(xùn)練效率比較

為了驗(yàn)證LSTM-BLS模型與其他復(fù)雜預(yù)測(cè)模型的訓(xùn)練效率，分別對(duì)所有模型提取的特征進(jìn)行預(yù)測(cè)。對(duì)于相同的特征，表3示出了這幾種模型所需的10倍交叉驗(yàn)證訓(xùn)練時(shí)間的平均值。可以看出，在Emotion數(shù)據(jù)集上，基于BLS模型的訓(xùn)練效率遠(yuǎn)高于基于LSTM模型的訓(xùn)練效率，LSTM- BLS模型的訓(xùn)練效率也比MCCLSTM+BLS模型的訓(xùn)練效率要高。對(duì)比CCFBLS模型和LSTM-BLS模型，前者的訓(xùn)練效率比后者要高，這是由于LSTM模型本身就比CNN要復(fù)雜，所以出現(xiàn)訓(xùn)練效率略低的結(jié)果并不反常。

表3 模型訓(xùn)練效率比較Table 3 Training efficiency comparison of different models

3 結(jié) 論

本文提出了基于寬度學(xué)習(xí)和深度學(xué)習(xí)的LSTMBLS網(wǎng)絡(luò)模型來(lái)進(jìn)行音樂(lè)情感識(shí)別分類。在音頻預(yù)處理階段，使用MFCC特征和RP特征加權(quán)結(jié)合，可以提取出更多、更全面的音樂(lè)情感特征；在情感預(yù)測(cè)階段，使用級(jí)聯(lián)LSTM網(wǎng)絡(luò)映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)進(jìn)行模型訓(xùn)練。該模型的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力，它的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單，模型訓(xùn)練時(shí)間短，從而提高識(shí)別效率；LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀，它能提取出音樂(lè)的時(shí)序關(guān)系，從而最大的保留音樂(lè)情感特征，將兩者的優(yōu)勢(shì)相結(jié)合，得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂(lè)情感分類任務(wù)。實(shí)驗(yàn)結(jié)果證明，LSTM-BLS網(wǎng)絡(luò)模型達(dá)到了比單一深度學(xué)習(xí)模型以及將CNN和寬度學(xué)習(xí)相結(jié)合的RCNNBL模型都更高的識(shí)別準(zhǔn)確率，同時(shí)實(shí)現(xiàn)了比基于LSTM的復(fù)雜模型更低的時(shí)間復(fù)雜度，有效地實(shí)現(xiàn)了音樂(lè)的情感分類，為音樂(lè)情感識(shí)別方向提供了一個(gè)新的可行性發(fā)展思路。