亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的音樂情感識(shí)別

2019-05-24 14:13:16唐霞張晨曦李江峰

電腦知識(shí)與技術(shù) 2019年11期

唐霞張晨曦李江峰

摘要：隨著互聯(lián)網(wǎng)多媒體技術(shù)的發(fā)展，越來(lái)越多的音樂歌曲通過(guò)網(wǎng)絡(luò)發(fā)布并存儲(chǔ)在大型數(shù)字音樂數(shù)據(jù)庫(kù)中。針對(duì)傳統(tǒng)音樂情感識(shí)別模型音樂情感識(shí)別率低的問(wèn)題，本文提出一種基于深度學(xué)習(xí)的音樂情感識(shí)別模型。該模型使用音樂信號(hào)特征語(yǔ)譜圖作為音樂特征輸入，使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)語(yǔ)譜圖進(jìn)行特征提取和情感分類。實(shí)驗(yàn)表明，相比于單獨(dú)使用CNN、RNN等情感識(shí)別模型，該模型對(duì)音樂情感識(shí)別率更高，對(duì)音樂情感識(shí)別的研究具有重大意義。

關(guān)鍵詞：音樂情感識(shí)別；深度學(xué)習(xí)；語(yǔ)譜圖；卷積神經(jīng)網(wǎng)絡(luò)；循環(huán)神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）11-0232-06

Abstract：With the development of Internet multimedia technology， more and more music songs are issued through the Internet and stored in large digital music databases. Aiming at the problem that the emotion recognition accuracy of traditional music emotion recognition model is low， this paper proposes a music emotion recognition model based on deep learning. The model uses the music signal feature spectrogram as the music feature input， and uses the combination of convolutional neural network and recurrent neural network to extract features of spectrograms and classify their emotions finally. Experiments show that compared with the emotion recognition models such as CNN and RNN， the model has higher emotion recognition accuracy for music， which is of great significance for the study of music emotion recognition.

Key words：music emotion recognition； deep learning； spectrogram； convolutional neural network； recurrent neural network

引言

隨著計(jì)算機(jī)多媒體技術(shù)的不斷發(fā)展進(jìn)步，人類與計(jì)算機(jī)的關(guān)系日益密切，人們通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)獲取大量的視頻、音頻和文字信息并從中得到精神上的享受，其中音樂對(duì)于人類來(lái)說(shuō)至關(guān)重要。由于互聯(lián)網(wǎng)音樂的快速發(fā)展，大量的歌曲通過(guò)網(wǎng)絡(luò)發(fā)布并存儲(chǔ)在大型數(shù)字音樂數(shù)據(jù)庫(kù)中，而檢索和描述音樂最常用的就是情感詞[1]，因此對(duì)海量音樂作品基于情感的組織和檢索問(wèn)題，越來(lái)越受到人們的關(guān)注。

為了實(shí)現(xiàn)基于情感的音樂檢索，往往需要標(biāo)注音樂作品的情感，如果使用人工方式對(duì)海量音樂進(jìn)行情感標(biāo)注，不僅工作量巨大，而且工作效率較低。因此，研究音樂情感識(shí)別技術(shù)，實(shí)現(xiàn)音樂作品的自動(dòng)情感標(biāo)注就成為必然的選擇。音樂情感識(shí)別模型就是通過(guò)分析音樂的音頻信號(hào)構(gòu)建計(jì)算模型，從而實(shí)現(xiàn)音樂情感自動(dòng)識(shí)別[2]。

在音樂情感識(shí)別模型中，音樂情感模型貫穿始終，它決定了情感分類的類別。1936年Hevner [3]提出了音樂離散類別情感模型，用67個(gè)情感形容詞來(lái)描述音樂表達(dá)的情感空間，并且將這67個(gè)情感形容詞分成8個(gè)類別，每個(gè)類別有一個(gè)代表性的形容詞。除了音樂離散類別情感模型，還有學(xué)者提出音樂情感通過(guò)連續(xù)的空間維度來(lái)表示，這便是Russell提出的Valence-Arousal情感模型（后文簡(jiǎn)稱為V-A模型）[4][5]。該模型認(rèn)為情感狀態(tài)是分布在一個(gè)包含Valence（效價(jià)度）和Arousal（激活度）的二維空間上的點(diǎn)，效價(jià)度反映情感的積極和消極程度，激活度反映情感的激烈程度。本文正是采用Russell提出的Valence-Arousal情感模型作為音樂情感模型。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法是從音樂音頻信號(hào)中手動(dòng)提取聲學(xué)特征作為特征輸入，例如手動(dòng)提取出音樂信號(hào)的音調(diào)特征，節(jié)奏特征和音色特征等，但是這樣帶來(lái)的問(wèn)題是在大樣本上面表現(xiàn)力不足，效果不佳。除此外還有使用處理后的音樂信號(hào)特征，例如梅爾倒譜系數(shù)MFCC，但實(shí)際取得的效果也不明顯。因此在本文中特征輸入采用包含了音樂音頻信號(hào)所有頻譜信息，沒有經(jīng)過(guò)任何加工過(guò)的語(yǔ)譜圖。很顯然，使用完整的音樂信號(hào)特征能更加完善的保留音樂信號(hào)的特征，為后續(xù)特征提取提供完整的特征原本。

深度學(xué)習(xí)（deep learning）能從音頻數(shù)據(jù)中學(xué)習(xí)音頻的底層特征與高層概念的關(guān)系。而音樂情感識(shí)別面臨的巨大挑戰(zhàn)在于音頻信號(hào)的特征與音樂的情感語(yǔ)義之間存在著難以用物理參數(shù)描述的差異，通過(guò)深度學(xué)習(xí)進(jìn)行情感識(shí)別，也許能夠跨越這一差異。其中卷積神經(jīng)網(wǎng)絡(luò)（Convolutional neural network， CNN）已經(jīng)在許多音樂分類任務(wù)中展現(xiàn)了它的優(yōu)秀性能，例如，音樂標(biāo)注[6][7]，體裁分類[8][9]和音樂推薦[10]。

因此，本文提出基于深度學(xué)習(xí)的音樂情感識(shí)別模型采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Convolutional Recurrent neural network（CRNN），通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent neural network， RNN），充分利用CNN對(duì)于圖像極強(qiáng)的綜合特征提取能力和RNN對(duì)于時(shí)間序列數(shù)據(jù)時(shí)序特征的提取能力，對(duì)語(yǔ)譜圖從綜合特征和時(shí)序特征二個(gè)方面進(jìn)行特征提取，從而實(shí)現(xiàn)音樂的情感分類。通過(guò)在公開音樂數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，與單獨(dú)使用CNN和RNN比較，CRNN具有更好的音樂情感準(zhǔn)確率。

1 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型

1.1 模型框架

本文基于深度學(xué)習(xí)的音樂情感識(shí)別模型是采用機(jī)器學(xué)習(xí)的方法來(lái)建立分類模型，圖1所示為該模型的基本框架圖。

模型設(shè)計(jì)思路為：將包含音樂信號(hào)和對(duì)應(yīng)情感標(biāo)簽的音樂數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集，在訓(xùn)練階段，先對(duì)訓(xùn)練集中的音樂信號(hào)樣本進(jìn)行預(yù)處理，再對(duì)其進(jìn)行特征的提取，之后與對(duì)應(yīng)的情感標(biāo)簽通過(guò)分類模型進(jìn)行訓(xùn)練。在測(cè)試階段，對(duì)測(cè)試樣本提取相同的特征，并利用訓(xùn)練階段得到的分類模型，進(jìn)行音樂情感的分類判別。

1.2 情感模型

本文采用Russell提出的Valence-Arousal情感模型作為音樂情感模型，情感狀態(tài)是分布在一個(gè)包含Valence（效價(jià)度）和Arousal（激活度）的二維空間上的點(diǎn)，其中縱軸表示激活度，橫軸表示效價(jià)度?？偟膩?lái)說(shuō)就是，效價(jià)度反映了情感的積極和消極程度，Valence值越大，則情感的積極程度越高，反之則消極程度越高；激活度反映了情感的激烈程度，Arousal值越大，則情感的激烈程度越高，反之則越低。V-A情感模型如圖2所示。

本文將V-A二維空間映射為（+ V + A ）、（-V+A）、（-V-A）和（+V-A）的4個(gè)離散類別，再分別對(duì)應(yīng)離散類別情感模型中的四種典型情感，從而獲得本文的音樂情感類別，更適合實(shí)驗(yàn)的開展。四個(gè)類別的音樂情感的對(duì)應(yīng)關(guān)系如表1中所示。

1.3 語(yǔ)譜圖

語(yǔ)譜圖（Spectrogram）是時(shí)序相關(guān)的傅里葉分析的顯示圖像，是一種可以反映音樂信號(hào)頻譜隨時(shí)間改變而變換的二維時(shí)頻圖，其橫坐標(biāo)表示時(shí)間，縱坐標(biāo)表示頻率。語(yǔ)譜圖中顯示了大量與音樂信號(hào)特性相關(guān)的信息，如共振峰、能量等頻域參數(shù)隨時(shí)間的變化情況，它同時(shí)具有時(shí)域波形與頻譜圖的特點(diǎn)。也就是說(shuō)，語(yǔ)譜圖本身包含了音樂信號(hào)的所有的頻譜信息，沒有經(jīng)過(guò)任何加工，所以語(yǔ)譜圖關(guān)于音樂的信息是無(wú)損的。這也是本文選擇語(yǔ)譜圖作為音樂信號(hào)特征輸入的原因。語(yǔ)譜圖的生成流程如圖3所示。

語(yǔ)譜圖的生成需要先進(jìn)行分幀加窗、短時(shí)傅里葉變換將是時(shí)域信息轉(zhuǎn)換為頻域信息，進(jìn)行刻度轉(zhuǎn)換成振幅的分貝表示，然后將處理后的頻域信息按照時(shí)序拼接形成語(yǔ)譜圖。針對(duì)具體的音樂信號(hào)，從波形圖到語(yǔ)譜圖的生成過(guò)程如圖4所示。

在本文中，考慮到人耳聽覺特性，所以所選擇的頻率為Mel頻率，由此得到的語(yǔ)譜圖是Mel范圍內(nèi)的語(yǔ)譜圖（Mel-Spectrogram）。語(yǔ)譜圖的橫坐標(biāo)是時(shí)間，縱坐標(biāo)是Mel頻率，坐標(biāo)點(diǎn)值為音樂信號(hào)數(shù)據(jù)能量。由于是采用二維平面表達(dá)三維信息，所以能量值的大小是通過(guò)顏色來(lái)表示的，顏色深，表示該點(diǎn)的語(yǔ)音能量越強(qiáng)。如圖5所示就是本文使用的灰度化的語(yǔ)譜圖。

1.4 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型

1.4.1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)之所以可以在音樂情感分析中進(jìn)行應(yīng)用，是因?yàn)橐魳返奶卣鞒藭r(shí)域特征，還有頻域特征?？梢詫⑾葘⒄Z(yǔ)音信號(hào)分幀，對(duì)每一幀進(jìn)行傅里葉變換成頻譜圖，然后將頻譜圖在時(shí)間維度上進(jìn)行連接，形成成語(yǔ)譜圖。一張語(yǔ)譜圖中可以包含所有的音頻信息，再加上卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖片超強(qiáng)的自動(dòng)特征提取的能力，所以可以使用語(yǔ)譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的原始輸入，從而將音樂信號(hào)和卷積神經(jīng)網(wǎng)絡(luò)聯(lián)系在一起。

在卷積神經(jīng)網(wǎng)絡(luò)模型中，輸入是音頻的語(yǔ)譜圖，經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行自動(dòng)特征提取，在此過(guò)程中不斷將特征進(jìn)行降維以及特征再提取，最后將提取出來(lái)的特征向量展平，輸入到全連接網(wǎng)絡(luò)后通過(guò)Softmax回歸得到輸出結(jié)果。關(guān)于該網(wǎng)絡(luò)模型的詳細(xì)結(jié)構(gòu)流程如圖6所示。

如圖6所示，在CNN音樂情感識(shí)別模型中輸入的語(yǔ)譜圖生成參數(shù)是幀長(zhǎng)256，幀移是128，由此得到的音樂片段語(yǔ)譜圖的大小以height*width的形式表示為96*1366，因?yàn)槭怯梢粋€(gè)音樂片段生成的一張語(yǔ)譜圖，所以輸入層就表示為1@96*1366。將輸入數(shù)據(jù)1@96*1366進(jìn)行Batch Normalization處理后再輸入到大的卷積層中，在每個(gè)大的卷積層里面，都要進(jìn)行卷積、池化（子采樣）、標(biāo)準(zhǔn)化，dropout等操作。進(jìn)行了5層的卷積層操作后，將輸入數(shù)據(jù)由1@96*1366特征提取，降維處理為256@1*1的形式。在CNNs 計(jì)算完畢后將輸出進(jìn)行展開為256維的向量，然后輸入到一層全連接層中，得到一個(gè)4維的向量，最后將這個(gè)4維的向量輸入Softmax中進(jìn)行分類處理得到最后的分類結(jié)果。

1.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)模型

由于生成的語(yǔ)譜圖具有時(shí)間序列的特征，所以可以考慮使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN提取其時(shí)序方面的特征進(jìn)行分類處理。RNN音樂情感識(shí)別模型的輸入是一張?jiān)家纛l生成的語(yǔ)譜圖，經(jīng)過(guò)RNN網(wǎng)絡(luò)后將最后一個(gè)step的輸出連接全連接神經(jīng)網(wǎng)絡(luò)中，最后通Softmax回歸得到分類結(jié)果。圖7展示了RNN音樂情感識(shí)別模型的詳細(xì)結(jié)構(gòu)網(wǎng)絡(luò)流程圖。

如圖7所示，在RNN音樂情感識(shí)別模型中輸入的語(yǔ)譜圖生成參數(shù)是幀長(zhǎng)256，幀移是128，由此得到的音樂片段語(yǔ)譜圖的大小以width*height的形式表示為1366*96，因?yàn)槭怯梢粋€(gè)音樂片段生成的一張語(yǔ)譜圖，所以輸入層就表示為1@96*1366。對(duì)于輸入數(shù)據(jù)1@96*1366先對(duì)數(shù)據(jù)進(jìn)行Batch Normalization處理，然后再輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中，這里采用GRU作為RNN的cell單元，在每一個(gè)cell單元中都包含dropout層，以此來(lái)防止過(guò)擬合。在經(jīng)過(guò)RNN網(wǎng)絡(luò)后將最后一個(gè)step的輸出連接全連接神經(jīng)網(wǎng)絡(luò)中，得到一個(gè)4維向量，最后將這個(gè)4維的向量輸入Softmax中進(jìn)行分類處理得到最后的分類結(jié)果。

1.4.3 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)CRNN模型

為了能充分利用語(yǔ)譜圖中的時(shí)序特征，獲得更好的分類效果，我們將語(yǔ)譜圖作為特征輸入，先使用CNN對(duì)語(yǔ)譜圖進(jìn)行特征提取，在此過(guò)程中同時(shí)保留語(yǔ)譜圖的時(shí)序特征，以此獲得綜合特征的時(shí)序數(shù)據(jù)特征圖，再將特征圖輸入到RNN中，利用RNN的時(shí)序特征提取能力，對(duì)特征圖針對(duì)時(shí)序特征再進(jìn)行特征提取，以此獲得最終的特征向量。這就是本文使用的CRNN模型。CRNN模型系統(tǒng)是一個(gè)以音頻為原始輸入，語(yǔ)譜圖為音樂信號(hào)特征，CRNN模型進(jìn)行特征訓(xùn)練的一個(gè)端到端的音樂情感識(shí)別模型。如圖8所示為CRNN模型的結(jié)構(gòu)圖。

在圖8中，CRNN模型以音樂信號(hào)語(yǔ)譜圖（橫軸為時(shí)間方向，縱軸為頻率方向，單聲道灰度表示）為輸入。在CNN子結(jié)構(gòu)中，利用CNN神經(jīng)網(wǎng)絡(luò)對(duì)于圖像二維數(shù)據(jù)特征提取的能力，將蘊(yùn)含在語(yǔ)譜圖中頻率方向的音樂情感特征提取出來(lái)并保留其時(shí)序特征，從而獲得1*15*N（頻率*時(shí)間*特征圖數(shù)目）的特征圖，這樣就可以去掉頻率維度，獲得了形如（時(shí)間*特征圖數(shù)目）的二維特征數(shù)據(jù)。在RNN子結(jié)構(gòu)中，利用RNN模型提取時(shí)間序列數(shù)據(jù)時(shí)間方面特征的能力，把形如（時(shí)間*特征圖數(shù)目）的二維數(shù)據(jù)輸入到RNN模型進(jìn)行情感分析，最后獲得one-hot向量。

CRNN模型的關(guān)鍵在于卷積神經(jīng)網(wǎng)絡(luò)CNN的卷積和池化過(guò)程中，通過(guò)卷積核，步長(zhǎng)，層數(shù)等參數(shù)設(shè)計(jì)，巧妙地使最后獲得的特征圖頻率方向的維度降為1，這樣既提取了頻率方向的特征，又保留了一定的時(shí)序特征。

該模型綜合了CNN對(duì)于圖像（二維數(shù)據(jù)）極強(qiáng)的綜合特征提取能力和RNN對(duì)于時(shí)間序列數(shù)據(jù)時(shí)間特征的提取能力，對(duì)語(yǔ)譜圖從綜合特征和時(shí)序特征二個(gè)方面進(jìn)行特征提取，既考慮到語(yǔ)譜圖作為圖像角度的特征提取，又兼顧了音樂信號(hào)時(shí)間序列角度的特征提取。如圖9所示為CRNN音樂情感識(shí)別模型的流程圖。

如圖9所示，CRNN音樂情感識(shí)別模型的流程為：將一段音樂歌曲信號(hào)進(jìn)行切分，獲得合適大小子音頻信號(hào)然后轉(zhuǎn)換為語(yǔ)譜圖。在本文中，獲得的是大小形為height*width的96*1366的語(yǔ)譜圖，然后將每張語(yǔ)譜圖輸入到卷積神經(jīng)網(wǎng)絡(luò)CNN中。在圖9中，輸入層是1@96*1366的數(shù)據(jù)，表示為CNN的輸入形狀（shape）[batch_size， height， width， channels]就是[batch_size， 96， 1366， 1]，其中batch_size為訓(xùn)練集中所取的批數(shù)據(jù)的大小，channels是圖像的通道數(shù)，因?yàn)楸疚牡恼Z(yǔ)譜圖都處理為單通道灰度圖，所以channels取1。

為了數(shù)據(jù)的方便處理，本文對(duì)輸入數(shù)據(jù)[batch_size， 96， 1366， 1]進(jìn)行pad操作，于是獲得的輸入數(shù)據(jù)shape為[batch_size， 96， 1440， 1]。進(jìn)行4層卷積神經(jīng)網(wǎng)絡(luò)CNN操作后（每個(gè)CNN中，卷積、池化、標(biāo)準(zhǔn)化，dropout等操作），獲得shape為[batch_size， 1， 15， 128]的向量，過(guò)程中的特征圖shape如圖中所示。

對(duì)于shape為[batch_size， 1， 15， 128]的向量可以理解為高度為1，寬度為15，通道數(shù)為128的圖像。因?yàn)楦叨葹?，所以可以降維處理為[batch_size， 15， 128]，此時(shí)，向量的shape就是理解為[batch_size， time_steps， features]，把寬度15看作是RNN輸入的time steps，1*128就是每個(gè)step的特征向量，這樣就符合RNN的輸入格式了。于是把[batch_size， 15， 128]的向量，通過(guò)GRU為cell的RNN，取最后一個(gè)step的結(jié)果，在經(jīng)過(guò)一層全連接神經(jīng)網(wǎng)絡(luò)通過(guò)Softmax回歸分類就可以得到分類結(jié)果了。

2 實(shí)驗(yàn)過(guò)程及結(jié)果

2.1 數(shù)據(jù)集

為了對(duì)以上模型進(jìn)行訓(xùn)練和測(cè)試，我們使用MediaEval Emotion in Music任務(wù)數(shù)據(jù)集[11]。在MediaEval Emotion in Music任務(wù)數(shù)據(jù)集中，1000首歌曲片段以1到1000作為歌曲片段id保存在一個(gè)文件夾database中，在annotations文件夾中注釋了每首歌曲的描述信息，以第二首歌曲為例，所使用到的描述信息如表2所示。

數(shù)據(jù)集中每個(gè)歌曲片段的時(shí)長(zhǎng)是45s，45s的歌曲片段均采用44.1kHZ的采樣頻率，單通道，1000首歌曲片段的保存格式為MPEG layer 3（MP3）格式。

由于去除了重復(fù)片段，所以有744個(gè)片段被標(biāo)注。在數(shù)據(jù)集的靜態(tài)注釋中，每段音樂的靜態(tài)V-A值設(shè)置在范圍1到9中。本文取平均Arousal值和平均Valence值作為整個(gè)片段的V-A值，然后采用Valence-Arousal情感模型，將V-A值映射到四類情感上，以（5，5）作為坐標(biāo)原點(diǎn)，得到表2中的情感標(biāo)簽。

然而，在上述數(shù)據(jù)集中，每個(gè)音樂歌曲片段有45s的時(shí)長(zhǎng)，不管是對(duì)人還是對(duì)分類模型而言，45s對(duì)于識(shí)別一首音樂的情感類別綽綽有余。因此，本文將45s的音樂片段分隔成若干4s左右的音樂片段，以擴(kuò)充音樂數(shù)據(jù)集，同時(shí)以整個(gè)片段的情感標(biāo)注作為子片段的情感標(biāo)注，最終得到包含8184個(gè)音樂片段的數(shù)據(jù)集。

2.2 參數(shù)設(shè)置

本實(shí)驗(yàn)中CRNN模型的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表3和表4中所示，該網(wǎng)絡(luò)的輸入?yún)?shù)形式是[batch_size， height， width， channels]，考慮到電腦內(nèi)存情況以及模型的復(fù)雜度，batch_size取24，也就是一次輸入24張大小為96*1366的語(yǔ)譜圖，該語(yǔ)譜圖的生成參數(shù)幀長(zhǎng)256，幀移是128，每張圖片都是單通道。對(duì)輸入數(shù)據(jù)[batch_size， 96， 1366， 1]進(jìn)行pad操作，于是獲得的輸入數(shù)據(jù)shape為[batch_size， 96， 1440， 1]。然后經(jīng)過(guò)4層卷積神經(jīng)網(wǎng)絡(luò)，每層都進(jìn)行卷積+標(biāo)準(zhǔn)化+ReLu激活函數(shù)，然后進(jìn)行池化+dropout，卷積層的padding方式取“same”，池化層的padding方式取“valid”。經(jīng)過(guò)CNN的處理獲得shape為[batch_size， 1， 15， 128]的特征圖向量。把shape為[batch_size， 1， 15， 128] 的特征圖向量進(jìn)行reshape操作，獲得shape為 [batch_size， 15， 128]的向量，此時(shí)向量的shape就是理解為[batch_size， time_steps， features]。

之后將shape為 [batch_size， 15， 128]的向量輸入到RNN中。輸入到RNN的時(shí)候，將 1x128 作為一個(gè)time step的輸入，這樣共有15個(gè)time_step。內(nèi)部的RNN結(jié)構(gòu)設(shè)置為多層GRU-Cell，并且用dropout進(jìn)行包裝處理，keep_prob參數(shù)設(shè)置為0.7。在RNN多層GRU-Cell處理結(jié)束后，將最后一次time_step的輸出結(jié)果形如[bacth_size， state_size]的向量輸入到全連接層中，輸出形如[batch_size， num_class]的特征，接著進(jìn)行Softmax回歸進(jìn)行分類處理。

本實(shí)驗(yàn)中，超參數(shù)設(shè)置為CNN部分dropout為0.5，RNN部分dropout為0.3，初始學(xué)習(xí)率設(shè)置為0.001，迭代周期epoch設(shè)置為400，損失函數(shù)選擇交叉熵cross entropy，優(yōu)化器選擇Adam優(yōu)化器。

2.3 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)的分類結(jié)果列在表5-7中。表5是使用CNN網(wǎng)絡(luò)（網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示）的情感分類的結(jié)果，表6是使用RNN網(wǎng)絡(luò)（網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7所示）的情感分類的結(jié)果，表7是使用CRNN網(wǎng)絡(luò)（網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示）的情感分類的結(jié)果。為了驗(yàn)證模型的泛化性能，本文采用10折交叉驗(yàn)證，將數(shù)據(jù)集分成10份，輪流將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測(cè)試數(shù)據(jù)，進(jìn)行測(cè)試，每次取模型收斂后最后10組性能指標(biāo)數(shù)據(jù)的算數(shù)平均值作為本次的訓(xùn)練的性能指標(biāo)，指標(biāo)使用宏平均的計(jì)算方式，重復(fù)10次獲得測(cè)試數(shù)據(jù)。

通過(guò)上述實(shí)驗(yàn)結(jié)果可以看出，相比于單獨(dú)使用CNN對(duì)語(yǔ)譜圖進(jìn)行綜合特征提取和單獨(dú)使用RNN對(duì)語(yǔ)譜圖進(jìn)行時(shí)序特征提取，先將語(yǔ)譜圖通過(guò)CNN進(jìn)行綜合特征提取再使用RNN對(duì)保留時(shí)序特征的特征圖進(jìn)行時(shí)序特征提取的CRNN模型實(shí)驗(yàn)取得的分類效果更好。

3 結(jié)論

隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展，與日俱增的實(shí)際應(yīng)用問(wèn)題也不斷被提出，其中音樂情感的識(shí)別問(wèn)題依舊是具有挑戰(zhàn)的。在本文中，我們沒有使用傳統(tǒng)的手工特征，而是使用包含了音樂信號(hào)所有頻譜信息沒有經(jīng)過(guò)任何加工的語(yǔ)譜圖作為特征輸入，與單獨(dú)使用CNN的音樂情感識(shí)別模型和單獨(dú)使用RNN的音樂情感識(shí)別模型相比，先將語(yǔ)譜圖通過(guò)CNN進(jìn)行綜合特征提取再使用RNN對(duì)保留時(shí)序特征的特征圖進(jìn)行時(shí)序特征提取的CRNN音樂情感識(shí)別模型實(shí)驗(yàn)取得的分類效果更好。這個(gè)比較為我們以后的研究提供了堅(jiān)實(shí)的基礎(chǔ)。在以后的研究中，我們將著力于音頻和視頻的多模型情感識(shí)別任務(wù)。

參考文獻(xiàn)：

[1] Woo W，J I Park，Y lwadate. Emotion Analysis from Dance Performance Using ime-delay Neural Networks [J]. 2000，Atlantic City，NJ，United States： Duke University，Association for Intelligent Machinery，Durham，NC 27708-0291，United States.

[2] Kim Y E，Schmidt E M，Migneco R. State of the Art Report： Music Emotion Recognition： A State of the Art Review[C]. International Society for Music Information Retrieval Conference，Ismir 2010， Utrecht， Netherlands， August，DBLP，2010，255-266 .

[3] Hevner K. Experimental studies of the elements of expression in music[J]. American Journal of Psychology， 1936， 48（2）： 246-268.

[4] Russell J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology，1980， 39（6）： 1161-1178.

[5] Posner J， Russell J A， Peterson B S. The circumplex model of affect： An integrative approach to affective neuroscience， cognitive development and psychopathology[J]. Development and Psychopathology， 2005，17（3）： 715-734.

[6] Sander Dieleman， Benjamin Schrauwen. End-to- end learning for music audio[C]. Acoustics， Speech and Signal Processing （ICASSP）， 2014 IEEE International Conference on. IEEE， 2014：6964-6968.

[7] Keunwoo Choi， George Fazekas， Mark Sandler. Automatic tagging using deep convolutional neural net- works[C]. International Society of Music Information Retrieval Conference. ISMIR， 2016.

[8] Siddharth Sigtia， Simon Dixon. Improved music feature learning with deep neural networks[C]. 2014 IEEE international conference on acoustics， speech and signal processing （ICASSP）. IEEE， 2014.

[9] Paulo Chiliguano， Gyorgy Fazekas. Hybrid music recommender using content-based and social information[C]. 2016 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. IEEE， 2016：2618-2622.

[10] Aaron Van den Oord， Sander Dieleman， Benjamin Schrauwen. Deep content based music recommendation[C]. Advances in Neural Information Processing Systems， 2013：2643–2651.

[11] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http：//www.multimediaeval.org/mediaeval2015/emotioninmusic，2015.

【通聯(lián)編輯：唐一東】