亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

音樂(lè)情感識(shí)別中的遷移學(xué)習(xí)方法研究

2018-04-24 12:17:18于超

現(xiàn)代計(jì)算機(jī) 2018年6期

于超

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都 610065）

0 引言

近年來(lái)，隨著移動(dòng)智能設(shè)備硬件性能和產(chǎn)品設(shè)計(jì)水平的不斷提高。人們可以隨時(shí)隨地享受諸多便捷的服務(wù)，而作為藝術(shù)一大領(lǐng)域的音樂(lè)，也成為人們生活不可或缺的一部分。得益于大數(shù)據(jù)和計(jì)算力的增長(zhǎng)以及智能算法的研究，機(jī)器學(xué)習(xí)技術(shù)開始廣泛應(yīng)用到互聯(lián)網(wǎng)產(chǎn)品中，使得用戶可以獲得更加個(gè)性化的體驗(yàn)。

基于機(jī)器學(xué)習(xí)的個(gè)性化音樂(lè)推薦系統(tǒng)也逐漸成為研究熱點(diǎn)，而音樂(lè)的情感則是音樂(lè)內(nèi)容本身非常重要的語(yǔ)義信息。本文主要研究了基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)情感識(shí)別遷移學(xué)習(xí)方法，并在公開音樂(lè)情感數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)及分析。

1 音樂(lè)情感識(shí)別現(xiàn)狀

音樂(lè)情感識(shí)別的研究可以追溯到1988年[1]，在隨后的三十年里越來(lái)越受到相關(guān)研究者的重視。時(shí)至今日，音樂(lè)情感識(shí)別的研究仍然面臨諸多困難和挑戰(zhàn)。

首先，當(dāng)前領(lǐng)域由于缺乏高質(zhì)量和統(tǒng)一的研究數(shù)據(jù)集，不同研究員只能自建數(shù)據(jù)集進(jìn)行研究，這樣不利于研究者之間進(jìn)行比較和判斷，因而影響了研究的發(fā)展。現(xiàn)有的音樂(lè)識(shí)別方面的公開數(shù)據(jù)集，較多是曲風(fēng)識(shí)別以及社交網(wǎng)絡(luò)標(biāo)簽識(shí)別，少量的專注于音樂(lè)情感識(shí)別的數(shù)據(jù)集中，也存在數(shù)據(jù)量太少或類別嚴(yán)重不平衡的問(wèn)題。自2007年起，音樂(lè)信息檢索領(lǐng)域的知名競(jìng)賽MIREX[2]（Music Information Retrieval Evaluation eX?change）開始加入了音樂(lè)情感分類的任務(wù)，并提供了一套建立情感分類數(shù)據(jù)集的方法，并構(gòu)建了相應(yīng)的數(shù)據(jù)集供參賽者進(jìn)行評(píng)估和比較，MIREX每年一次的舉辦為該領(lǐng)域的研究發(fā)展起到了很好的作用，但其數(shù)據(jù)集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數(shù)據(jù)集收集方法，構(gòu)建了一套公開的音樂(lè)情感分類數(shù)據(jù)集，稱為類MIREX數(shù)據(jù)集[3]，從而為不同研究者在該領(lǐng)域進(jìn)行研究提供了很好的助益，因此，本文也將在此數(shù)據(jù)集上開展實(shí)驗(yàn)。

此外，近年來(lái)大數(shù)據(jù)的發(fā)展讓人們認(rèn)識(shí)到，少量的采樣會(huì)影響對(duì)真實(shí)世界的認(rèn)知，對(duì)于機(jī)器智能算法來(lái)說(shuō)也是一樣，而相比于音樂(lè)曲風(fēng)識(shí)別的公開數(shù)據(jù)集已經(jīng)達(dá)到了十萬(wàn)首的數(shù)量級(jí)[4]，目前的音樂(lè)情感數(shù)據(jù)集在曲目數(shù)量上仍較少，本文將研究基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法，在當(dāng)前數(shù)據(jù)量較少的情況下改善系統(tǒng)的識(shí)別能力。

2 基于梅爾聲譜圖及遷移學(xué)習(xí)的音樂(lè)分類方法

2.1 音樂(lè)的梅爾聲譜圖表示

圖1 一首音樂(lè)的原始波形（上）與對(duì)應(yīng)的聲譜圖（下）

梅爾聲譜圖是一種常用的音頻信號(hào)表示方法，圖1展示了一首音樂(lè)的原始波形極其對(duì)應(yīng)的聲譜圖。在數(shù)字信號(hào)領(lǐng)域中，將時(shí)間信號(hào)轉(zhuǎn)換為時(shí)間-頻率表示是一種有助于信號(hào)分析的方法，聲譜圖的生成原理也類似，即先將音頻信號(hào)根據(jù)設(shè)置的時(shí)間窗口分成許多幀，對(duì)每一幀音頻，通過(guò)短時(shí)傅立葉變換生成頻譜圖，同時(shí)考慮到梅爾頻率更加符合人類的聽覺(jué)特點(diǎn)，將頻譜圖映射到梅爾頻率上，再把所有幀的頻譜在時(shí)間軸上拼接成一張完整的聲譜圖。

將音樂(lè)信號(hào)表示為梅爾聲譜圖，有助于通過(guò)圖像這個(gè)載體，進(jìn)行后續(xù)的音樂(lè)情感識(shí)別。

2.2 卷積神經(jīng)網(wǎng)絡(luò)分類模型

自2012年基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet[5]在Ima?geNet圖像識(shí)別競(jìng)賽上大放異彩起，深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域得到了快速發(fā)展，相較于傳統(tǒng)人工設(shè)計(jì)的特征，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層卷積和反向傳播算法，從數(shù)據(jù)當(dāng)中自動(dòng)學(xué)習(xí)出對(duì)于當(dāng)前問(wèn)題更合適的特征表示，已經(jīng)在圖像領(lǐng)域顯示出強(qiáng)大的能力。一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)分類器包含卷積層、激活函數(shù)、池化層、全連接層和Softmax分類器，同時(shí)還有一些防止網(wǎng)絡(luò)過(guò)擬合的結(jié)構(gòu)和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂(lè)推薦問(wèn)題[6]的啟發(fā)，本文將采用聲譜圖結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方式對(duì)音樂(lè)數(shù)據(jù)進(jìn)行分析。

2.3 特征提取與遷移學(xué)習(xí)方法

卷積神經(jīng)網(wǎng)絡(luò)出色的表現(xiàn)一部分來(lái)源于其逐層提取特征的能力，也就是通過(guò)低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過(guò)對(duì)訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了可視化[7]，發(fā)現(xiàn)隨著網(wǎng)絡(luò)層次的加深，提取出來(lái)的特征在語(yǔ)義上也更高級(jí)。得益于ImageNet大規(guī)模圖像數(shù)據(jù)集的發(fā)布和深度學(xué)習(xí)算法的研究，使得人們可以在數(shù)據(jù)量較小的情況下，通過(guò)遷移學(xué)習(xí)的方法更好更快地訓(xùn)練一個(gè)新的任務(wù)的模型。

基于深度學(xué)習(xí)的遷移學(xué)習(xí)技術(shù)，即在當(dāng)前任務(wù)數(shù)據(jù)樣本量較少的情況下，首先尋找擁有大量數(shù)據(jù)的相關(guān)問(wèn)題，通過(guò)對(duì)相關(guān)問(wèn)題的學(xué)習(xí)之后，再將網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)（即特征表示）應(yīng)用到當(dāng)前要解決的任務(wù)上來(lái)。具體可以采用兩種方式進(jìn)行知識(shí)遷移。其一，將預(yù)訓(xùn)練好的網(wǎng)絡(luò)作為特征提取器，后續(xù)增加的網(wǎng)絡(luò)或者分類器在前序提取的特征基礎(chǔ)上進(jìn)行訓(xùn)練。其二，使用預(yù)訓(xùn)練好的網(wǎng)絡(luò)參數(shù)初始化當(dāng)前更改過(guò)結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù)，整個(gè)網(wǎng)絡(luò)與新增加的部分一同訓(xùn)練。

Google的聲音理解小組在2017年初發(fā)布了大規(guī)模音頻數(shù)據(jù)集AudioSet[8]，其中包含了兩百萬(wàn)個(gè)帶有人工標(biāo)簽的視頻音軌，并且在此數(shù)據(jù)集上預(yù)訓(xùn)練了一個(gè)音頻事件檢測(cè)網(wǎng)絡(luò)[9]，本文的遷移學(xué)習(xí)研究將在此基礎(chǔ)上展開。

3 實(shí)驗(yàn)部分

3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)標(biāo)準(zhǔn)

本文采用公開的類MIREX（MIREX-like）音樂(lè)情感數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。數(shù)據(jù)集包含903首30秒的音樂(lè)片段，如表1所示，每個(gè)片段屬于一個(gè)特定的類別（聚簇），每個(gè)類別由語(yǔ)義上相似的情感詞聚合而成。其中每個(gè)類別150首歌曲構(gòu)成平衡訓(xùn)練集，剩下20%的曲目則構(gòu)成測(cè)試集。

表1 M IREX-like音樂(lè)情感數(shù)據(jù)集類別構(gòu)成

實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用分類正確率（Accuracy）衡量。正確率的定義為下式，其中I為指示函數(shù)，當(dāng)括號(hào)內(nèi)的等式為真時(shí)，該值為1。

3.2 數(shù)據(jù)預(yù)處理

為便于后續(xù)在AudioSet模型上進(jìn)行遷移學(xué)習(xí)，首先將MIREX-like數(shù)據(jù)集中所有的音樂(lè)片段按1秒分割提取成96×64的梅爾聲譜圖，構(gòu)成相應(yīng)的切片訓(xùn)練樣本和切片測(cè)試樣本，同時(shí)將同屬于一首測(cè)試歌曲的切片組合成完整的測(cè)試樣本。

3.3 遷移學(xué)習(xí)模型

實(shí)驗(yàn)中所采用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如表2所示。由于遷移學(xué)習(xí)的方式，該網(wǎng)絡(luò)的輸入層直至第三全連接層（FC3）的結(jié)構(gòu)與AudioSet模型結(jié)構(gòu)相同，包含了6個(gè)卷積層、4個(gè)池化層及3個(gè)全連接層，這部分的輸出稱為嵌入層（Embedding）。在AudioSet模型的基礎(chǔ)上增加一個(gè)小型神經(jīng)網(wǎng)絡(luò)（FC4+FC5+Softmax）或直接增加Softmax分類器（FC5+Softmax），用于學(xué)習(xí)Embed?ding層的高層語(yǔ)義特征與音樂(lè)情感之間的映射關(guān)系。

3.4 實(shí)驗(yàn)結(jié)果與分析

本文首先進(jìn)行了普通的學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比試驗(yàn)，其中遷移學(xué)習(xí)方式采用了前述的兩種方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示：

表3 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比

訓(xùn)練過(guò)程在30輪左右已經(jīng)基本收斂，所以基于同樣的訓(xùn)練輪數(shù)對(duì)結(jié)果進(jìn)行觀察。

一方面，使用遷移學(xué)習(xí)的方式最終獲得的分類正確率均高于直接從少量數(shù)據(jù)中訓(xùn)練的結(jié)果，說(shuō)明從音頻大數(shù)據(jù)訓(xùn)練得到的特征表示在音樂(lè)情感識(shí)別的任務(wù)上也具有較好的能力。對(duì)于遷移學(xué)習(xí)方式2，由于要訓(xùn)練的網(wǎng)絡(luò)容量比方式1大得多，所以在不改變網(wǎng)絡(luò)架構(gòu)的情況下，正確率會(huì)較低一些。

另一方面，在預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)之上增加更多的層次，只對(duì)正確率略有提升，也從另一角度說(shuō)明遷移學(xué)習(xí)過(guò)來(lái)的特征表示已經(jīng)具有較好的能力。

同時(shí)，本文也進(jìn)行了實(shí)驗(yàn)，分析從AudioSet預(yù)訓(xùn)練網(wǎng)絡(luò)遷移音頻特征表示對(duì)音樂(lè)情感識(shí)別任務(wù)學(xué)習(xí)速度的影響，監(jiān)測(cè)訓(xùn)練過(guò)程收斂所花費(fèi)的訓(xùn)練輪次，實(shí)驗(yàn)結(jié)果如表4所示：

表4 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比

實(shí)驗(yàn)顯示，采用遷移學(xué)習(xí)方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練將收斂速度提升了一倍以上，與此同時(shí)，將預(yù)訓(xùn)練網(wǎng)絡(luò)部分與新增網(wǎng)絡(luò)部分協(xié)同訓(xùn)練會(huì)進(jìn)一步提高收斂速度。

4 結(jié)語(yǔ)

本文基于梅爾聲譜圖、卷積神經(jīng)網(wǎng)絡(luò)及AudioSet模型研究了音樂(lè)情感識(shí)別的遷移學(xué)習(xí)方法。實(shí)驗(yàn)中著重對(duì)音頻遷移學(xué)習(xí)帶來(lái)的音樂(lè)情感識(shí)別能力提升和訓(xùn)練速度提升進(jìn)行了考察。由于AudioSet音頻事件檢測(cè)任務(wù)同音樂(lè)情感識(shí)別任務(wù)存在語(yǔ)義上的相關(guān)性，應(yīng)用遷移學(xué)習(xí)方式提高了原神經(jīng)網(wǎng)絡(luò)的分類性能，同時(shí)大幅提升了訓(xùn)練過(guò)程的收斂速度，證明了相關(guān)音頻領(lǐng)域中的特征表示在音樂(lè)情感識(shí)別任務(wù)中具有較好效果。在未來(lái)工作中，我們?nèi)孕枰M(jìn)一步解決許多現(xiàn)存問(wèn)題，第一，情感類別對(duì)于不同主體的歧義性導(dǎo)致訓(xùn)練數(shù)據(jù)的質(zhì)量不穩(wěn)定，產(chǎn)生的誤差將會(huì)進(jìn)一步影響后續(xù)的學(xué)習(xí)與識(shí)別。第二，研究基于不同的大規(guī)模數(shù)據(jù)的遷移學(xué)習(xí)對(duì)音樂(lè)情感識(shí)別效果的影響。

參考文獻(xiàn)：

[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects（DAFx-12）.2012.

[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840（2016）.

[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems，2012.

[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP，2017.

[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430（2016）.