亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于寬深學(xué)習(xí)網(wǎng)絡(luò)的音樂(lè)情感識(shí)別

        2022-07-06 08:09:10王晶晶
        關(guān)鍵詞:卷積分類節(jié)點(diǎn)

        王晶晶, 黃 如

        ( 華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

        從古至今,音樂(lè)一直都是人類活動(dòng)中不可或缺的一部分,不僅可以代表作者表達(dá)自己的內(nèi)心情感活動(dòng),也可以使傾聽者接受音樂(lè)的力量,與之共鳴,從而達(dá)到一些正面的精神引導(dǎo)。在這個(gè)追求智能化的時(shí)代,眾多影視作品和多媒體視頻層出不窮,音樂(lè)情感識(shí)別也可以根據(jù)語(yǔ)音視頻內(nèi)容所傳遞的情感進(jìn)行實(shí)時(shí)配樂(lè)。

        目前對(duì)音樂(lè)情感識(shí)別的研究主要分為兩個(gè)方面,一個(gè)是如何更好地提取音樂(lè)的情感特征;一個(gè)是如何提高情感識(shí)別的分類器效果。陳穎呈等[1]為了確保音頻特征提取的魯棒性和泛化能力,提高特征在表現(xiàn)音樂(lè)非線性深層語(yǔ)義的特性,在音頻特征提取階段采用了基于深度學(xué)習(xí)的音級(jí)輪廓(Deep Pitch Class Profile, DPCP)特征。Weninger等[2]使用音樂(lè)的底層特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以此完成音樂(lè)情感識(shí)別。Markov等[3]使用高斯過(guò)程(Gaussian Process, GP)和支持向量機(jī)(Support Vector Machines,SVM)來(lái)研究不同的特征,包括梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient, LPC)、音色特征及其各種組合特征,然后用于音樂(lè)曲風(fēng)分類和VA(Valence-Arousal)情感估計(jì)。從他們的實(shí)驗(yàn)可以看出,GP方法的分類結(jié)果確實(shí)比SVM方法優(yōu)秀,但是GP方法的算法復(fù)雜度要高于SVM方法,所以在大規(guī)模任務(wù)中很難實(shí)際應(yīng)用。Chen等[4]將節(jié)奏、力度、音色、音高和音調(diào)相關(guān)的特征拼接為38維的音樂(lè)特征,使用基于深度高斯過(guò)程(Deep Gaussian Process, DGP)方法進(jìn)行音樂(lè)情感識(shí)別,為每一個(gè)情感種類構(gòu)建一個(gè)GP回歸器,使用回歸方式來(lái)分類音樂(lè)情感。雖然這種方法達(dá)到了比較不錯(cuò)的情感分類效果,但是模型訓(xùn)練完成之后不能擴(kuò)充音樂(lè)樣本。Li等[5]提出了一種基于DBLSTM(Deep Bidirectional Long Short-Term Memory)的方法來(lái)動(dòng)態(tài)預(yù)測(cè)音樂(lè)的情感,該方法根據(jù)不同尺度的時(shí)間序列來(lái)訓(xùn)練多個(gè)DBLSTM,然后使用超限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)將多個(gè)尺度的DBLSTM的結(jié)果進(jìn)行融合得到最終結(jié)果。魏琛等[6]和宋振振等[7]則利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)及其變體來(lái)自動(dòng)提取情感樣本的抽象特征,省去了人工選擇特征與降維的過(guò)程。Sarkar等[8]遵循基于深度學(xué)習(xí)的方法提出了一種圍繞VGGNet構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)和一種新穎的Post-Processing技術(shù)來(lái)改善音樂(lè)情感識(shí)別的性能。唐霞等[9]則提出了一種深度學(xué)習(xí)模型,該模型使用音樂(lè)信號(hào)特征語(yǔ)譜圖作為音樂(lè)特征輸入,使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)語(yǔ)譜圖進(jìn)行特征提取和情感分類。Issa等[10]引入了一種新的體系結(jié)構(gòu),從聲音文件中提取MFCC、色譜圖、梅爾尺度頻譜圖、Tonnetz表示和頻譜對(duì)比度特征,然后將它們輸入到一維的卷積神經(jīng)網(wǎng)絡(luò),之后利用一種增量方法來(lái)修改初始模型,以提高分類精度。該方法與某些前期的方法不同,所有模型都可以直接處理原始聲音數(shù)據(jù),而無(wú)需轉(zhuǎn)換為視覺(jué)表示。Nalini等[11]將MFCC和RP (Residual Phase)結(jié)合提取音樂(lè)情感特征,在自聯(lián)想神經(jīng)網(wǎng)絡(luò)(Autoassociative Neural Network,AANN)、SVM和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network, RBFNN)3種算法模型上進(jìn)行情感分類訓(xùn)練,結(jié)果表明融合特征識(shí)別結(jié)果一致優(yōu)于單一音樂(lè)情感特征,但是在傳統(tǒng)深度學(xué)習(xí)中訓(xùn)練模型普遍耗時(shí)較長(zhǎng),效率低下,尤其是在動(dòng)態(tài)增加樣本數(shù)量方面。大多數(shù)音樂(lè)用于情感識(shí)別的算法都從兩個(gè)方面入手:首先是特征提取,盡量將音樂(lè)信號(hào)中包含的情感特征信息提取出來(lái),用作模型輸入;其次是分類器設(shè)計(jì),最大化音樂(lè)情感識(shí)別分類的準(zhǔn)確率,設(shè)計(jì)更好的學(xué)習(xí)模型。這些算法雖然取得了不錯(cuò)的識(shí)別效果,但是仍然有可改進(jìn)的地方:(1)提取的音樂(lè)情感特征種類較多,而算法的靈活性不足,不能適配各種特征。(2)深度學(xué)習(xí)網(wǎng)絡(luò)搭建簡(jiǎn)單,但是內(nèi)部結(jié)構(gòu)十分復(fù)雜而且超參數(shù)的數(shù)量龐大,不易修改,從理論上分析其內(nèi)部結(jié)構(gòu)是一件非常困難的事情。(3)情感是比較主觀的,如何更好地提取其音樂(lè)特征,從哪方面入手進(jìn)行創(chuàng)新也是不容易把握的。

        寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法,寬度學(xué)習(xí)結(jié)構(gòu)簡(jiǎn)單,處理數(shù)據(jù)快速。Tang等[12]使用隨機(jī)卷積神經(jīng)網(wǎng)絡(luò)對(duì)音頻進(jìn)行特征提取,然后使用寬度學(xué)習(xí)網(wǎng)絡(luò)來(lái)進(jìn)行標(biāo)簽預(yù)測(cè),將深度學(xué)習(xí)和寬度學(xué)習(xí)進(jìn)行順序拼接,有效地提高了模型分類精度和訓(xùn)練效率。為了同時(shí)兼顧深度學(xué)習(xí)和寬度學(xué)習(xí)的優(yōu)點(diǎn),Chen等[13]提出了一種基于卷積特征映射節(jié)點(diǎn)的級(jí)聯(lián)寬度學(xué)習(xí)網(wǎng)絡(luò),實(shí)驗(yàn)證明該網(wǎng)絡(luò)在特征提取和訓(xùn)練效率方面大大超過(guò)了傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)。受此啟發(fā),本文將LSTM[14]和BLS[15]相結(jié)合,使用LSTM作為BLS的特征映射節(jié)點(diǎn),搭建了一種新型寬深學(xué)習(xí)網(wǎng)絡(luò)(Long Short-Term Memory-Broad Learning System, LSTM-BLS)來(lái)提高音樂(lè)情感分類精度。LSTM-BLS使用增量學(xué)習(xí)算法來(lái)處理新增節(jié)點(diǎn)的訓(xùn)練,不用重新處理所有數(shù)據(jù),大大縮短了模型運(yùn)行時(shí)間。首先,在音樂(lè)特征提取階段,使用基于內(nèi)容的聲學(xué)特征MFCC來(lái)增加情感的敏感度,從音樂(lè)信號(hào)導(dǎo)出殘差相位來(lái)提取出特定的音樂(lè)情感信息,將兩者進(jìn)行加權(quán)結(jié)合作為模型輸入;其次將輸入數(shù)據(jù)進(jìn)行LSTM模型訓(xùn)練,提取出音樂(lè)的前后文關(guān)系,生成特征節(jié)點(diǎn)集作為BL增強(qiáng)節(jié)點(diǎn)的輸入,經(jīng)過(guò)映射生成增強(qiáng)層輸出,將特征節(jié)點(diǎn)與增強(qiáng)節(jié)點(diǎn)集的組合使用全局違逆得到最終輸出;最后利用訓(xùn)練好的模型對(duì)音樂(lè)情感的種類進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果證明本文算法增加的音樂(lè)特征更有效地提取出了音頻信息,構(gòu)建的LSTM-BLS提高了音樂(lè)情感識(shí)別的精度以及效率。

        1 算法模型

        1.1 特征提取

        1.1.1 MFCC 目前基于內(nèi)容的聲學(xué)特征主要分為音色、節(jié)奏、音高、和聲和時(shí)間特征這幾類。音色特征包括倒譜特征,比如MFCC;節(jié)奏內(nèi)容特征主要包括節(jié)拍數(shù)、節(jié)奏直方圖等;音高內(nèi)容特征主要表現(xiàn)為頻率信息;和聲特征包括色度圖;時(shí)間特征包括時(shí)間質(zhì)心[16]。其中MFCC利用了聽覺(jué)原理以及倒譜的去相關(guān)特性,在眾多實(shí)驗(yàn)中脫穎而出,成為語(yǔ)音和音樂(lè)相關(guān)識(shí)別任務(wù)中最成功的頻譜特征之一。為了提取該特征,首先,對(duì)音頻信號(hào)進(jìn)行預(yù)處理,進(jìn)行分幀加窗,使用Blackman-Harris窗口將采樣率為44.1 kHz的原始信號(hào)分割成2 048個(gè)樣本的幀,將音頻信號(hào)加窗后,每幀信號(hào)的兩端會(huì)漸變?yōu)?,因此信號(hào)兩端會(huì)被削弱。為了克服這個(gè)問(wèn)題,分幀時(shí)相鄰幀會(huì)重疊一部分,一般取幀長(zhǎng)的一半或固定為10 ms。本文取相鄰幀重疊50%,既能保證減免頻譜泄露,也能減少不必要的工作量。然后,在每個(gè)幀上應(yīng)用離散短時(shí)傅里葉變換來(lái)獲得頻譜能量,再通過(guò)k1個(gè)梅爾濾波器頻率響應(yīng)來(lái)加權(quán),進(jìn)一步濾波以生成梅爾譜圖,其中心頻率和帶寬大致與聽覺(jué)臨界帶濾波器相匹配。最后,將整個(gè)梅爾譜圖序列分割成L個(gè)擁有k2個(gè)幀大小的塊,沿時(shí)間軸表示為Iq,q=1,···,L。因此,每個(gè)塊的大小為k1×k2。

        1.1.2 RP 根據(jù)文獻(xiàn)[11],RP定義為從音樂(lè)信號(hào)的線性預(yù)測(cè)(Linear Predictive, LP)殘差中導(dǎo)出的解析信號(hào)的相位函數(shù)的余弦。在時(shí)刻t,音樂(lè)樣本s(t) 可以估計(jì)為過(guò)去p個(gè)樣本的線性組合,所以預(yù)測(cè)的音樂(lè)樣本可以表示為

        其中:p為預(yù)測(cè)的時(shí)刻順序;系數(shù) {ak},k=1,2,···,p,為線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficients, LPCs)的集合。

        預(yù)測(cè)誤差e(t) 定義為實(shí)際值s(t) 與預(yù)測(cè)值的差值,公式如下:

        通過(guò)最小化預(yù)測(cè)誤差e(t) 得到LPCs,即音樂(lè)信號(hào)的LP殘差r(t) 。由r(t) 可以得到解析信號(hào)ra(t) :

        有很多關(guān)于音樂(lè)情感的信息就存在于LP殘差中,通過(guò)計(jì)算剩余相位可以幫助提取出音樂(lè)信號(hào)中存在的情感特定信息。剩余相位即解析信號(hào)相位的余弦,計(jì)算公式如下:

        文獻(xiàn)[17]已經(jīng)證明了RP中包含與MFCC特征互補(bǔ)的音頻特定信息,而RP定義為從音樂(lè)信號(hào)的LP殘差導(dǎo)出的解析信號(hào)的相位函數(shù)的余弦。在深度學(xué)習(xí)模型中的識(shí)別率表明,音樂(lè)信號(hào)中存在特定的情感信息,而RP可以提取出這些特定信息。將MFCC特征和RP特征進(jìn)行加權(quán)結(jié)合得到最終輸出,可以提高模型對(duì)音樂(lè)信號(hào)包含的情感特征提取能力。特征提取流程圖如圖1所示。

        1.2 模型概述

        1.2.1 BLS BLS的建立過(guò)程如下:首先網(wǎng)絡(luò)的特征節(jié)點(diǎn)由輸入數(shù)據(jù)映射的特征組合而成;其次,將映射特征節(jié)點(diǎn)的輸出集輸入到增強(qiáng)層被增強(qiáng)為隨機(jī)生成權(quán)重的增強(qiáng)節(jié)點(diǎn);最后,通過(guò)對(duì)映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出集進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出。給定訓(xùn)練數(shù)據(jù) {X,}∈RN×(M+C)和n個(gè)特征節(jié)點(diǎn)映射 ?i,則第i個(gè)映射的特征為

        其中:權(quán)重Wei和偏置項(xiàng) βei是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。

        把Zn[Z1,Z2,···,Zn] 看作是n組特征節(jié)點(diǎn)的集合,然后,將Zn連接到增強(qiáng)節(jié)點(diǎn)層中。

        同樣,第j個(gè)增強(qiáng)節(jié)點(diǎn)集的輸出為

        其中: ξj是非線性激活函數(shù);Whj為權(quán)重; βhj為偏置項(xiàng);權(quán)重和偏置項(xiàng)是按照數(shù)據(jù)的相應(yīng)維度隨機(jī)生成的矩陣。然后,將增強(qiáng)節(jié)點(diǎn)層的輸出看作Hm[H1,H2,···,Hm]。

        為了簡(jiǎn)化,在不失去通用性的情況下,省略特征映射 ?i的下標(biāo)和 ξj激活函數(shù),而且在建立模型時(shí)也可以根據(jù)需要選擇不同的 ?i和 ξj激活函數(shù)。

        為了獲得輸入數(shù)據(jù)的稀疏表示,應(yīng)用線性逆問(wèn)題對(duì)隨機(jī)初始化的權(quán)重矩陣Wei進(jìn)行微調(diào),因此,BLS的輸出Y有以下形式:其中:Wm是連接特征節(jié)點(diǎn)層和增強(qiáng)節(jié)點(diǎn)層到輸出層的權(quán)重,Wm[Zn,Hm]+Y,可以很容易地利用偽逆[Zn,Hm]+來(lái)計(jì)算。

        1.2.2 LSTM-BLS 本文利用LSTM作為寬度學(xué)習(xí)網(wǎng)絡(luò)的特征節(jié)點(diǎn),將上一層LSTM的輸出和輸入數(shù)據(jù)X作為下一層LSTM的輸入,并將特征節(jié)點(diǎn)的最后一層數(shù)據(jù)輸出連接到增強(qiáng)節(jié)點(diǎn)。最后通過(guò)直接結(jié)合映射特征節(jié)點(diǎn)和增強(qiáng)結(jié)點(diǎn)的輸出來(lái)得到最終結(jié)果輸入,然后進(jìn)行快速偽逆運(yùn)算得到最終結(jié)果輸出,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 LSTM-BLS網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Netuork structure of LSTM-BLS model

        LSTM-BLS網(wǎng)絡(luò)模型理論推導(dǎo)如下:首先計(jì)算特征映射節(jié)點(diǎn)Zt,根據(jù)LSTM的網(wǎng)絡(luò)更新方式對(duì)輸入層信息進(jìn)行計(jì)算,公式如(10)所示。

        其中:wxa為輸入數(shù)據(jù)與隱藏層之間的權(quán)值;wha為上一時(shí)刻的輸出權(quán)值;ba為偏置量。

        對(duì)輸入門進(jìn)行計(jì)算,公式如(11)所示。其中:wxi為輸入門與輸入信息之間的權(quán)值;whi為輸入門與上一時(shí)刻輸出之間的權(quán)值;bi為偏置量。

        同理,對(duì)遺忘門進(jìn)行計(jì)算,公式如(12)所示。

        其中:wx f為遺忘門與輸入信息之間的權(quán)值;whf為遺忘門與上一時(shí)刻輸出之間的權(quán)值;bf為偏置量。

        對(duì)Cell中的狀態(tài)值進(jìn)行計(jì)算,公式如(13)所示。

        對(duì)輸出門狀態(tài)值進(jìn)行計(jì)算,公式如(14)所示。

        每一組節(jié)點(diǎn)都使用相同的計(jì)算過(guò)程,所有n組特征映射節(jié)點(diǎn)都表示為

        其次,預(yù)期網(wǎng)絡(luò)通過(guò)公式(17)進(jìn)行功能增強(qiáng)

        利用偽逆 [Zn,Hm]+可以很容易地計(jì)算出權(quán)重Wm[Zn,Hm]+Y。LSTM-BLS總體模型框圖如圖3所示。

        圖3 LSTM-BLS模型框圖Fig. 3 Block diagram of LSTM-BLS model

        2 結(jié)果與討論

        2.1 數(shù)據(jù)集

        本文使用Emotion音樂(lè)數(shù)據(jù)集來(lái)測(cè)試評(píng)估深度學(xué)習(xí)復(fù)雜模型以及寬深學(xué)習(xí)網(wǎng)絡(luò)在情感分類中的性能。該數(shù)據(jù)集由2 906首歌曲組成,共包含4個(gè)情感類別,憤怒歌曲639首、快樂(lè)歌曲753首、放松歌曲750首和悲傷歌曲764首。為了實(shí)驗(yàn)的便利和整齊性,只使用每首歌曲的前30 s,而不足30 s的則進(jìn)行補(bǔ)零操作。數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)分成3份,分別為訓(xùn)練、驗(yàn)證和測(cè)試集,可以最大化保證實(shí)驗(yàn)的公平性。

        2.2 參數(shù)設(shè)置

        為了驗(yàn)證基于寬深學(xué)習(xí)網(wǎng)絡(luò)的模型分類有效性,選取了4個(gè)復(fù)雜網(wǎng)絡(luò)進(jìn)行對(duì)比,分別為文獻(xiàn)[12]提出的RCNNBL結(jié)構(gòu)、文獻(xiàn)[18]提出的基于三通道(MCC-3)模型和文獻(xiàn)[19]提出的MCCLSTM模型結(jié)構(gòu)、文獻(xiàn)[13]提出的級(jí)聯(lián)卷積特征映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)(Broad Learning Systems: Cascade of Convolution Feature Mapping Nodes, CCFBLS),以及兩個(gè)基礎(chǔ)深度學(xué)習(xí)網(wǎng)絡(luò)CNN和LSTM。其中RCNNBL模型、MCC-3模型和MCCLSTM模型結(jié)構(gòu)的參數(shù)設(shè)置分別參考各自文獻(xiàn),LSTM-BLS和CCFBLS的參數(shù)設(shè)置見(jiàn)表1。實(shí)驗(yàn)在具有12 GB內(nèi)存的NVIDIATITANXP GPU上進(jìn)行。

        表1 模型參數(shù)設(shè)置Table 1 Parameters for models

        在預(yù)處理階段,采用40個(gè)梅爾濾波器組和80個(gè)幀長(zhǎng)提取MFCC特征,采用16階LP來(lái)導(dǎo)出LP殘差。利用一階數(shù)字濾波器和20 ms幀大小,相鄰幀之間重疊50%,通過(guò)預(yù)先強(qiáng)調(diào)輸入音樂(lè)數(shù)據(jù),從情感音樂(lè)信號(hào)中提取LP殘差,提取每個(gè)幀的最高Hilbert包絡(luò)生成RP特征,將兩種特征進(jìn)行加權(quán)結(jié)合提取出特征時(shí)序圖,對(duì)每種類型的音樂(lè)信號(hào)進(jìn)行特征提取,得到時(shí)序特征圖。圖4分別示出了從4種情感類型的音頻信號(hào)中提取出的3幀時(shí)序特征。網(wǎng)絡(luò)的輸入?yún)?shù)形式是[batch_size, height, width, channels],根據(jù)電腦內(nèi)存大小以及分類模型的復(fù)雜度,batch_size取128,也就是一次輸入128張的時(shí)序圖。在LSTM-BLS網(wǎng)絡(luò)中使用3層LSTM進(jìn)行節(jié)點(diǎn)映射,輸出維度分別為400、200和100,經(jīng)過(guò)實(shí)驗(yàn)對(duì)比選取效果最好的模型結(jié)構(gòu),然后將LSTM的輸出映射到增強(qiáng)層。在CCFBLS網(wǎng)絡(luò)中共有4個(gè)卷積塊,每個(gè)CNN塊都包括卷積層、池化層和Dropout層,卷積層中濾波器的數(shù)量為64,形狀固定為 3×3 ,步幅為1,池化方式選擇最大池化,Dropout參數(shù)為0.5,其中4個(gè)卷積輸出都連接到CCFBLS的輸出節(jié)點(diǎn)。

        圖4 4種情感音樂(lè)的時(shí)序特征圖Fig. 4 Timing features extracted from four music emotions

        2.3 實(shí)驗(yàn)結(jié)果

        由于不確定哪種LSTM模型結(jié)構(gòu)和寬度學(xué)習(xí)系統(tǒng)相結(jié)合可以達(dá)到更高的音樂(lè)情感分類準(zhǔn)確率,本文首先進(jìn)行LSTM模型結(jié)構(gòu)實(shí)驗(yàn),用于選擇映射層LSTM節(jié)點(diǎn)個(gè)數(shù)。實(shí)驗(yàn)分別對(duì)比了1~3層的LSTM和寬度學(xué)習(xí)相結(jié)合的模型,試圖找出LSTM層數(shù)對(duì)總體模型分類準(zhǔn)確率的影響,分類結(jié)果如圖5所示??梢钥闯?,兩層LSTM模型的分類準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他兩個(gè)模型,并且增加層數(shù)并沒(méi)有使結(jié)果更加優(yōu)秀反而增加了訓(xùn)練時(shí)間,因此選擇兩層LSTM模型輸出作為映射層輸入,與寬度學(xué)習(xí)系統(tǒng)相結(jié)合進(jìn)行音樂(lè)情感分類訓(xùn)練。

        圖5 不同LSTM層數(shù)的分類準(zhǔn)確率比較Fig. 5 Classification accuracy comparison of different LSTM layers

        將本文模型與文獻(xiàn)[12]中的4種分類模型(MCCLSTM、MCCBL、RCNNLSTM、RCNNBL)相比,評(píng)價(jià)所提出的分類模型的準(zhǔn)確性和效果。為了進(jìn)行公平的比較,對(duì)每個(gè)方案進(jìn)行10倍的交叉驗(yàn)證,以獲得分類精度,分類結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明本文模型在音樂(lè)情感分類方面遠(yuǎn)遠(yuǎn)優(yōu)于基于深度學(xué)習(xí)的模型,也比RCNNBL模型的分類效果好得多。因?yàn)橐魳?lè)的情感分析本就非常主觀,所以在音樂(lè)情感識(shí)別中,如何使用物理參數(shù)從音頻信號(hào)的特征來(lái)描述音樂(lè)情感非常困難,而且對(duì)于音樂(lè)情感分類,目前研究結(jié)果并不能使人滿意,只能是在微小的優(yōu)勢(shì)中辨別出可能的方向。

        從表2可以看出,LSTM在音樂(lè)情感分類方面擁有微弱的優(yōu)勢(shì),而MCCLSTM[19]使用多通道CNN結(jié)合LSTM進(jìn)行音樂(lè)情感識(shí)別分類任務(wù),雖然比LSTM的識(shí)別準(zhǔn)確率要穩(wěn)定一點(diǎn),但是復(fù)雜的模型將會(huì)增加模型訓(xùn)練時(shí)間,因此本文選擇使用LSTM和寬度學(xué)習(xí)進(jìn)行結(jié)合。

        表2 模型分類準(zhǔn)確率比較Table 2 Classification accuracy comparison of different models

        使用級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的寬度學(xué)習(xí)系統(tǒng)在音樂(lè)情感分類中已經(jīng)展露出明顯的優(yōu)勢(shì),對(duì)比其他復(fù)雜模型,音樂(lè)情感分類的準(zhǔn)確率有了大幅提升,從而證明了寬深學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)越性。而本文提出的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力,它的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單,模型訓(xùn)練時(shí)間短,從而提高了識(shí)別效率。LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀,它能提取出音樂(lè)的時(shí)序關(guān)系,從而最大保留音樂(lè)情感特征,將兩者的優(yōu)勢(shì)相結(jié)合,得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂(lè)情感分類任務(wù)。圖6示出了不同模型分類準(zhǔn)確性的比較結(jié)果,LSTM-BLS模型的識(shí)別準(zhǔn)確率比MCCLSTM提高了10%左右,比RCNNBL提高了7.2%左右,比CCFBLS提高了6.5%左右,從而證明了LSTM-BLS模型更準(zhǔn)確地實(shí)現(xiàn)了音樂(lè)的情感分類。

        圖6 不同模型分類準(zhǔn)確性分布比較Fig. 6 Classification accuracy distribution comparison of different models

        2.4 訓(xùn)練效率比較

        為了驗(yàn)證LSTM-BLS模型與其他復(fù)雜預(yù)測(cè)模型的訓(xùn)練效率,分別對(duì)所有模型提取的特征進(jìn)行預(yù)測(cè)。對(duì)于相同的特征,表3示出了這幾種模型所需的10倍交叉驗(yàn)證訓(xùn)練時(shí)間的平均值。可以看出,在Emotion數(shù)據(jù)集上,基于BLS模型的訓(xùn)練效率遠(yuǎn)高于基于LSTM模型的訓(xùn)練效率,LSTM- BLS模型的訓(xùn)練效率也比MCCLSTM+BLS模型的訓(xùn)練效率要高。對(duì)比CCFBLS模型和LSTM-BLS模型,前者的訓(xùn)練效率比后者要高,這是由于LSTM模型本身就比CNN要復(fù)雜,所以出現(xiàn)訓(xùn)練效率略低的結(jié)果并不反常。

        表3 模型訓(xùn)練效率比較Table 3 Training efficiency comparison of different models

        3 結(jié) 論

        本文提出了基于寬度學(xué)習(xí)和深度學(xué)習(xí)的LSTMBLS網(wǎng)絡(luò)模型來(lái)進(jìn)行音樂(lè)情感識(shí)別分類。在音頻預(yù)處理階段,使用MFCC特征和RP特征加權(quán)結(jié)合,可以提取出更多、更全面的音樂(lè)情感特征;在情感預(yù)測(cè)階段,使用級(jí)聯(lián)LSTM網(wǎng)絡(luò)映射節(jié)點(diǎn)的寬度學(xué)習(xí)系統(tǒng)進(jìn)行模型訓(xùn)練。該模型的網(wǎng)絡(luò)結(jié)構(gòu)充分利用了BLS的快速處理復(fù)雜數(shù)據(jù)的能力,它的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單,模型訓(xùn)練時(shí)間短,從而提高識(shí)別效率;LSTM在提取時(shí)間序列數(shù)據(jù)中的時(shí)序特征方面表現(xiàn)優(yōu)秀,它能提取出音樂(lè)的時(shí)序關(guān)系,從而最大的保留音樂(lè)情感特征,將兩者的優(yōu)勢(shì)相結(jié)合,得到LSTM-BLS網(wǎng)絡(luò)模型進(jìn)行音樂(lè)情感分類任務(wù)。實(shí)驗(yàn)結(jié)果證明,LSTM-BLS網(wǎng)絡(luò)模型達(dá)到了比單一深度學(xué)習(xí)模型以及將CNN和寬度學(xué)習(xí)相結(jié)合的RCNNBL模型都更高的識(shí)別準(zhǔn)確率,同時(shí)實(shí)現(xiàn)了比基于LSTM的復(fù)雜模型更低的時(shí)間復(fù)雜度,有效地實(shí)現(xiàn)了音樂(lè)的情感分類,為音樂(lè)情感識(shí)別方向提供了一個(gè)新的可行性發(fā)展思路。

        猜你喜歡
        卷積分類節(jié)點(diǎn)
        CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        Analysis of the characteristics of electronic equipment usage distance for common users
        分類算一算
        基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        教你一招:數(shù)的分類
        中文 在线 日韩 亚洲 欧美| 亚洲综合国产精品一区二区| 中文字幕一区二区三区四区| 国模冰莲极品自慰人体| 好大好深好猛好爽视频免费| av色综合网站| 中文字幕久久人妻av| 国产极品裸体av在线激情网| 国产真实强被迫伦姧女在线观看| 丰满岳乱妇在线观看中字无码 | 国产三级在线观看性色av| 精品乱色一区二区中文字幕 | 性欧美长视频免费观看不卡| 国产亚洲人成a在线v网站| 亚洲区偷拍自拍29p| 亚洲熟女天堂av一区二区三区| 国产在线无码不卡影视影院| 亚洲国产精品嫩草影院久久| 国产一起色一起爱| 亚洲中文中文字幕乱码| 夜夜爽日日澡人人添| 亚洲一区二区三区国产精华液| 91精品国产无码在线观看| 青青草视频网站在线观看| 亚洲av永久无码精品三区在线| 欧美中文字幕在线| 日本精品久久中文字幕| 国产18禁黄网站免费观看| av香港经典三级级 在线| 亚洲电影一区二区| 亚洲国产精品av麻豆网站| 女人和拘做受全程看视频| 综合网在线视频| 亚洲伊人伊成久久人综合| 亚洲精品国偷拍自产在线| 亚洲国产精品久久久久秋霞1| 免费无码AⅤ片在线观看| 成人大片免费视频播放一级| 40岁大乳的熟妇在线观看| 亚洲AV综合A∨一区二区| 国产黄色一级大片一区二区|