亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN-LSTM的歌曲音頻情感分類*

        2019-06-10 07:00:56陳長風(fēng)
        通信技術(shù) 2019年5期
        關(guān)鍵詞:特征參數(shù)音頻卷積

        陳長風(fēng)

        (杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

        0 引 言

        隨著計(jì)算機(jī)技術(shù)的發(fā)展,現(xiàn)代人們的音樂體驗(yàn)已經(jīng)從之前的錄音磁帶和光盤唱片發(fā)展為數(shù)字音樂形式。音樂中含有豐富的人類情感信息,并且可以讓人直觀感受到其中的情感傾向。當(dāng)海量音樂數(shù)據(jù)出現(xiàn)時(shí),對其進(jìn)行情感分析有助于對音樂數(shù)據(jù)進(jìn)行有效的組織和檢索。人工智能技術(shù)的興起,能夠讓機(jī)器實(shí)現(xiàn)主觀化的情感分析,許多對情感特征提取和分類方法的研究也在相應(yīng)展開。

        歌曲音頻情感分析技術(shù)起源于語音情感分析,但由于歌曲音頻的復(fù)雜性,其特征參數(shù)往往表現(xiàn)出維度多、數(shù)量大以及難以分析的特點(diǎn),相較語音情感分析難度更高。大多數(shù)學(xué)者的研究圍繞如何從時(shí)域特征和頻域特征等諸多音頻特征中選取能夠表達(dá)歌曲中隱含情感信息的特征,并通過傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)建立訓(xùn)練模型對歌曲進(jìn)行情感分 類[1-5]。本文就特征選取與分類方法兩個(gè)方向?yàn)槌霭l(fā)點(diǎn),研究不同音頻特征參數(shù)對情感分類的影響,并試圖構(gòu)建新的分類模型,提高歌曲情感分類性能。

        1 音頻情感特征提取

        1.1 音頻信號(hào)預(yù)處理

        聲音以波的形式存在,模擬的音頻信號(hào)通過采樣量化編碼三步操作完成模擬信號(hào)到數(shù)字信號(hào)的轉(zhuǎn)換。數(shù)字音頻文件讀取到計(jì)算機(jī)后,表現(xiàn)為一行由數(shù)據(jù)組成的數(shù)組。這個(gè)數(shù)組的維度由歌曲本身的時(shí)長和采樣頻率共同決定。

        音頻信號(hào)的預(yù)處理一般包含以下步驟[6]。

        預(yù)加重:在求音頻信號(hào)頻譜時(shí),往往高頻率部分的頻譜比低頻率部分難求,因此需要加入預(yù)加重步驟,目的是提高高頻部分,使信號(hào)的頻譜走勢變得平坦,以便進(jìn)行頻譜分析。通常采用數(shù)字濾波器實(shí)現(xiàn)預(yù)加重。

        分幀:為了進(jìn)行短時(shí)分析,可以對整段音頻信號(hào)進(jìn)行時(shí)域內(nèi)的分段處理,其中每一段稱為一幀。一般取10~30 ms,保持短時(shí)平穩(wěn)性。為了使幀與幀之間過渡平滑,可使用交疊分段的方法。

        加窗:加窗的目的是解決分幀后起始和終止不連續(xù)帶來的吉布斯效應(yīng)。具體操作是將每個(gè)短段音頻數(shù)據(jù)與一個(gè)窗函數(shù)相乘,常見的窗函數(shù)有矩形窗、漢明窗和漢寧窗。

        1.2 頻譜特征提取

        從音頻信號(hào)中可以提取到非常豐富的特征參數(shù),其中包括時(shí)域特征和頻域特征等。選擇合適的特征參數(shù),有助于提高情感分類準(zhǔn)確性。在情感分類中,普遍使用的特征參數(shù)為梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)[7]。MFCC是基于人耳聽覺系統(tǒng)所提出的倒頻參數(shù),考慮了人類發(fā)出聲音與接受聲音的過程和特點(diǎn),其頻率的增長與人耳的聽覺特性一致[8]。MFCC的提取過程如圖1所示。

        圖1 MFCC提取流程

        對預(yù)處理后的每一幀音頻信號(hào)進(jìn)行快速傅里葉變化,得到每幀信號(hào)的頻譜,然后通過頻率與Mel頻率關(guān)系:

        將實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度。再將信號(hào)經(jīng)過M個(gè)Mel尺度的三角形濾波器組,并計(jì)算每組濾波器對信號(hào)幅度濾波后的輸出。對所有輸出作對數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換(DTC),即可得到每幀音頻信號(hào)的M維MFCC。由于標(biāo)準(zhǔn)的MFCC只能夠反映音頻參數(shù)的靜態(tài)特征,后續(xù)可以進(jìn)行一階差分和二階差分系數(shù)的提取,然后組合為完整的MFCC特征向量。

        除了上述MFCC特征外,音頻信號(hào)還具有其他一些包含情感信息的特征參數(shù)[9],如表1所示。在實(shí)驗(yàn)中通過分析不同特征參數(shù)對各情感子類的影響,適當(dāng)選取特征,可以大大提高情感分類性能。

        表1 情感特征參數(shù)列表

        2 音頻情感分類方法

        2.1 支持向量機(jī)

        支持向量機(jī)(Support Vector Machine,SVM)是一種傳統(tǒng)的二元分類算法,核心思想是在高維或無限維空間內(nèi)構(gòu)造超平面集合,然后將該平面作為決策邊界來劃分分類數(shù)據(jù)。SVM主要對線性可分的情況進(jìn)行分析,若訓(xùn)練樣本是線性不可分的,可以通過非線性映射將低維特征空間特征映射到高維以達(dá)到線性可分。SVM的分類效果取決于合適的核函數(shù)和懲罰變量,實(shí)際中使用RBF核函數(shù)往往能達(dá)到更好的分類效果。針對情感分類這種多分類問題,可以通過“一對一”和“一對多”兩種策略,構(gòu)造多個(gè)二元分類器來達(dá)到多分類的效果。

        2.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),由若干個(gè)卷積層、池化層以及全連接層組成。卷積的結(jié)構(gòu)使得CNN能夠很好地利用輸入數(shù)據(jù)的二維結(jié)構(gòu)處理圖像和語音數(shù)據(jù)。卷積層的功能是對輸入的音頻特征參數(shù)進(jìn)行進(jìn)一步特征提取,其內(nèi)部包含多個(gè)卷積核,然后通過池化層進(jìn)行特征選擇和信息過濾,輸入到全連接層解除多維結(jié)構(gòu)展開為向量,并通過激勵(lì)函數(shù)傳遞到下一層網(wǎng)絡(luò)。經(jīng)過最后一個(gè)全連接層后,使用歸一化指數(shù)函數(shù)softmax輸出分類標(biāo)簽結(jié)果。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)包括VGGNet[10]和ResNet[11]。

        2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN) 是一類處理序列化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。特殊的網(wǎng)絡(luò)結(jié)構(gòu)解決了序列化信息保存?zhèn)鬟f的問題,對處理時(shí)間序列和語言文本序列問題具有獨(dú)特優(yōu)勢。在RNN中,一個(gè)神經(jīng)元的輸出可以在下一時(shí)刻繼續(xù)作用到自身。但是,隨著時(shí)間間隔的增大,RNN可能會(huì)喪失學(xué)習(xí)距離較遠(yuǎn)信息的能力(梯度消失),難以處理長序列數(shù)據(jù)。

        長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種特殊結(jié)構(gòu)的RNN,能夠解決長期依賴問題。LSTM與RNN的區(qū)別在于算法中添加了一個(gè)用于判斷信息是否有用的判決器,這種判決結(jié)構(gòu)通常稱為cell。一個(gè)cell中放置了輸入門、遺忘門以及輸出門三種門結(jié)構(gòu),只有算法判斷有用的信息才能留下,否則被遺忘門遺忘。實(shí)際應(yīng)用中,雙向LSTM結(jié)構(gòu)和注意力機(jī)制的引入,能夠給模型帶來更好的分類效果[12]。

        2.4 組合網(wǎng)絡(luò)模型

        在圖像和文本處理領(lǐng)域,已經(jīng)有不少學(xué)者開展了組合網(wǎng)絡(luò)模型的研究。R Girshick等通過CNN與SVM組合的方式,解決了目標(biāo)物體檢測的問題,相較傳統(tǒng)方法性能大大提升[13]。B Shi等提出了CRNN的結(jié)構(gòu),通過CNN與LSTM網(wǎng)絡(luò)的組合和CTC實(shí)現(xiàn)端到端不定長的圖像文本識(shí)別[14]。

        CNN網(wǎng)絡(luò)中的卷積層和池化層起到了特征提取和特征選擇的作用,可以利用CNN網(wǎng)絡(luò)的部分結(jié)構(gòu)輸出一組特征向量,作為新的特征輸入到SVM和LSTM。本文就歌曲音頻情感分類研究為前提,以VGG-16作為基礎(chǔ)網(wǎng)絡(luò),構(gòu)造了兩種組合網(wǎng)絡(luò)模型,如圖2所示。

        圖2 兩類組合網(wǎng)絡(luò)分類模型

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        本文用于實(shí)驗(yàn)的數(shù)據(jù)集來自Million Song Dataset(百萬歌曲數(shù)據(jù)集)中的Last.fm標(biāo)簽子集[15],從中抽取4種情感標(biāo)簽歌曲列表,情感標(biāo)簽分別為憤怒(angry)、高興(happy)、放松(relaxed)和悲傷(sad)。通過python編寫腳本工具,從各大音樂網(wǎng)站爬取標(biāo)簽列表下的歌曲音頻文件,并進(jìn)行人工篩選。對歌曲文件進(jìn)行預(yù)處理,去掉多為背景音的前5 s數(shù)據(jù),拆分為30 s的歌曲片段,用來統(tǒng)一不定長的音頻數(shù)據(jù)。設(shè)定采樣頻率為8 kHz、單聲道,每個(gè)30 s音頻片段提取到的實(shí)際幀數(shù)為469幀,并通過隨機(jī)劃分的方式,將歌曲片段樣本集劃分為80%訓(xùn)練集和20%測試集。數(shù)據(jù)集組成如表2所示。

        表2 數(shù)據(jù)集組成

        3.2 不同音頻特征的分類性能比較

        本組實(shí)驗(yàn)驗(yàn)證不同音頻特征對各分類性能的影響,將13維的MFCC特征參數(shù)與過零率、頻譜質(zhì)心等其他6種特征參數(shù)進(jìn)行特征拼接,得到19維融合特征。實(shí)驗(yàn)中用SVM作為分類器,分別使用單獨(dú)的MFCC特征和融合特征作為分類器的輸入,并通過主成分分析(PCA)進(jìn)行特征降維[16],采取 5折交叉驗(yàn)證進(jìn)行參數(shù)尋優(yōu),分類準(zhǔn)確率如表3所示。

        表3 不同音頻特征的分類準(zhǔn)確率比較

        實(shí)驗(yàn)表明,單一MFCC特征參數(shù)能夠在一定程度上表征情感信息,但在“高興”情感上分類表現(xiàn)較差;融合情感特征相比單一MFCC特征,分類準(zhǔn)確率在整體上有所提升,且大大彌補(bǔ)了“高興”分類性能的不足。其中“憤怒”分類性能相比其他三種表現(xiàn)突出,是因?yàn)橄啾绕渌N情感標(biāo)簽,“憤怒”情感的歌曲類型一般為金屬、朋克等風(fēng)格,歌曲情感極性突出、節(jié)奏較快,特征參數(shù)與其他三種類型差別較大,能夠獲得較好的分類效果。

        3.3 不同分類方法的分類性能比較

        本組實(shí)驗(yàn)驗(yàn)證不同分類方法對各分類性能的影響。實(shí)驗(yàn)中分別使用SVM、LSTM以及CNN作為情感分類器,將融合后的特征作為各分類器輸入,訓(xùn)練得到分類結(jié)果如表4所示。

        表4 不同分類方法的分類準(zhǔn)確率比較

        實(shí)驗(yàn)可見,CNN相比SVM,在分類準(zhǔn)確率上有6%的提升。由于輸入特征維度較低但序列維度較高,使用LSTM進(jìn)行分類,整體上沒有取得較好的分類效果,但在“放松”分類下效果突出。分類結(jié)果說明,深度學(xué)習(xí)的方法可以更好地壓縮和提取情感特征參數(shù),相比較淺層學(xué)習(xí)方法具有更好的魯棒性。因此,使用深度學(xué)習(xí)的方式進(jìn)行歌曲音頻情感分類是可行的。

        3.4 組合網(wǎng)絡(luò)模型與單一分類方法的比較

        本組實(shí)驗(yàn)將2.4節(jié)中的兩種組合網(wǎng)絡(luò)分類模型與3.3節(jié)中取得較好分類效果的單一CNN分類方法進(jìn)行比較,輸入?yún)?shù)均為融合后的19維情感特征,訓(xùn)練后的分類效果如表5所示。

        表5 組合網(wǎng)絡(luò)模型與單一分類方法準(zhǔn)確率比較

        可見,相對于單一的CNN分類模型,兩種組合網(wǎng)絡(luò)模型都取得了較好的分類效果,其中CNN+LSTM的平均分類準(zhǔn)確率相較CNN提升了5%,且彌補(bǔ)了在“放松”情感上分類效果不佳的問題。CNN+LSTM組合方法在各子分類下性能表現(xiàn)穩(wěn)定,魯棒性高,表明了組合網(wǎng)絡(luò)模型在情感分類下的適用性。

        4 結(jié) 語

        歌曲音頻情感分類的效果取決于提取到的音頻特征參數(shù)和使用的分類方法。在特征參數(shù)選取上,本文采用融合的情感特征彌補(bǔ)了MFCC特征在特定子類別下分類效果的不足。針對歌曲情感分類這一主題,本文構(gòu)建了兩種組合網(wǎng)絡(luò)分類模型,相比較SVM、CNN以及LSTM分類方法,CNN+LSTM組合模型在情感分類準(zhǔn)確性上有較大提升。

        猜你喜歡
        特征參數(shù)音頻卷積
        故障診斷中信號(hào)特征參數(shù)擇取方法
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        人妻无码一区二区视频| 久久国产精品免费一区二区三区| 亚洲av高清一区二区在线观看| 亚洲人成精品久久久久| 国产成人久久777777| 中文无码日韩欧免费视频| 人妻有码中文字幕在线| 精品午夜福利在线观看| 亚洲精品无码久久久久| 久热香蕉精品视频在线播放| 国内国外日产一区二区| 97色伦图片97综合影院| 亚洲精品乱码久久久久久久久久久久| 亚洲国产成人AV人片久久网站 | 台湾佬娱乐中文22vvvv| 国产一区二区欧美丝袜| 日本办公室三级在线观看| 免费观看a级片| 香蕉视频www.5.在线观看| 欧美亚洲国产精品久久久久| 大香蕉国产av一区二区三区| 欧美真人性野外做爰| 国产欧美精品在线一区二区三区 | 国产成人精品一区二区日出白浆| 一区二区三区四区国产99| 一本色综合久久| 青青国产成人久久91| 成人爽a毛片免费网站中国| 国产成人精品亚洲日本在线观看| 国产 国语对白 露脸| 熟妇与小伙子露脸对白| 有坂深雪中文字幕亚洲中文| 一本一道久久综合久久| 男人的天堂在线无码视频| 国产网友自拍视频在线观看| 成人丝袜激情一区二区| 亚洲欧美日韩国产综合一区二区| 中文字幕一区二区网站| 手机在线观看免费av网站| 久久综合精品国产一区二区三区无码 | 麻豆国产精品久久天堂|