亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        音樂(lè)情感識(shí)別中的遷移學(xué)習(xí)方法研究

        2018-04-24 12:17:18于超
        現(xiàn)代計(jì)算機(jī) 2018年6期
        關(guān)鍵詞:情感音樂(lè)實(shí)驗(yàn)

        于超

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        0 引言

        近年來(lái),隨著移動(dòng)智能設(shè)備硬件性能和產(chǎn)品設(shè)計(jì)水平的不斷提高。人們可以隨時(shí)隨地享受諸多便捷的服務(wù),而作為藝術(shù)一大領(lǐng)域的音樂(lè),也成為人們生活不可或缺的一部分。得益于大數(shù)據(jù)和計(jì)算力的增長(zhǎng)以及智能算法的研究,機(jī)器學(xué)習(xí)技術(shù)開始廣泛應(yīng)用到互聯(lián)網(wǎng)產(chǎn)品中,使得用戶可以獲得更加個(gè)性化的體驗(yàn)。

        基于機(jī)器學(xué)習(xí)的個(gè)性化音樂(lè)推薦系統(tǒng)也逐漸成為研究熱點(diǎn),而音樂(lè)的情感則是音樂(lè)內(nèi)容本身非常重要的語(yǔ)義信息。本文主要研究了基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)情感識(shí)別遷移學(xué)習(xí)方法,并在公開音樂(lè)情感數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)及分析。

        1 音樂(lè)情感識(shí)別現(xiàn)狀

        音樂(lè)情感識(shí)別的研究可以追溯到1988年[1],在隨后的三十年里越來(lái)越受到相關(guān)研究者的重視。時(shí)至今日,音樂(lè)情感識(shí)別的研究仍然面臨諸多困難和挑戰(zhàn)。

        首先,當(dāng)前領(lǐng)域由于缺乏高質(zhì)量和統(tǒng)一的研究數(shù)據(jù)集,不同研究員只能自建數(shù)據(jù)集進(jìn)行研究,這樣不利于研究者之間進(jìn)行比較和判斷,因而影響了研究的發(fā)展。現(xiàn)有的音樂(lè)識(shí)別方面的公開數(shù)據(jù)集,較多是曲風(fēng)識(shí)別以及社交網(wǎng)絡(luò)標(biāo)簽識(shí)別,少量的專注于音樂(lè)情感識(shí)別的數(shù)據(jù)集中,也存在數(shù)據(jù)量太少或類別嚴(yán)重不平衡的問(wèn)題。自2007年起,音樂(lè)信息檢索領(lǐng)域的知名競(jìng)賽MIREX[2](Music Information Retrieval Evaluation eX?change)開始加入了音樂(lè)情感分類的任務(wù),并提供了一套建立情感分類數(shù)據(jù)集的方法,并構(gòu)建了相應(yīng)的數(shù)據(jù)集供參賽者進(jìn)行評(píng)估和比較,MIREX每年一次的舉辦為該領(lǐng)域的研究發(fā)展起到了很好的作用,但其數(shù)據(jù)集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數(shù)據(jù)集收集方法,構(gòu)建了一套公開的音樂(lè)情感分類數(shù)據(jù)集,稱為類MIREX數(shù)據(jù)集[3],從而為不同研究者在該領(lǐng)域進(jìn)行研究提供了很好的助益,因此,本文也將在此數(shù)據(jù)集上開展實(shí)驗(yàn)。

        此外,近年來(lái)大數(shù)據(jù)的發(fā)展讓人們認(rèn)識(shí)到,少量的采樣會(huì)影響對(duì)真實(shí)世界的認(rèn)知,對(duì)于機(jī)器智能算法來(lái)說(shuō)也是一樣,而相比于音樂(lè)曲風(fēng)識(shí)別的公開數(shù)據(jù)集已經(jīng)達(dá)到了十萬(wàn)首的數(shù)量級(jí)[4],目前的音樂(lè)情感數(shù)據(jù)集在曲目數(shù)量上仍較少,本文將研究基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,在當(dāng)前數(shù)據(jù)量較少的情況下改善系統(tǒng)的識(shí)別能力。

        2 基于梅爾聲譜圖及遷移學(xué)習(xí)的音樂(lè)分類方法

        2.1 音樂(lè)的梅爾聲譜圖表示

        圖1 一首音樂(lè)的原始波形(上)與對(duì)應(yīng)的聲譜圖(下)

        梅爾聲譜圖是一種常用的音頻信號(hào)表示方法,圖1展示了一首音樂(lè)的原始波形極其對(duì)應(yīng)的聲譜圖。在數(shù)字信號(hào)領(lǐng)域中,將時(shí)間信號(hào)轉(zhuǎn)換為時(shí)間-頻率表示是一種有助于信號(hào)分析的方法,聲譜圖的生成原理也類似,即先將音頻信號(hào)根據(jù)設(shè)置的時(shí)間窗口分成許多幀,對(duì)每一幀音頻,通過(guò)短時(shí)傅立葉變換生成頻譜圖,同時(shí)考慮到梅爾頻率更加符合人類的聽覺(jué)特點(diǎn),將頻譜圖映射到梅爾頻率上,再把所有幀的頻譜在時(shí)間軸上拼接成一張完整的聲譜圖。

        將音樂(lè)信號(hào)表示為梅爾聲譜圖,有助于通過(guò)圖像這個(gè)載體,進(jìn)行后續(xù)的音樂(lè)情感識(shí)別。

        2.2 卷積神經(jīng)網(wǎng)絡(luò)分類模型

        自2012年基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet[5]在Ima?geNet圖像識(shí)別競(jìng)賽上大放異彩起,深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域得到了快速發(fā)展,相較于傳統(tǒng)人工設(shè)計(jì)的特征,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層卷積和反向傳播算法,從數(shù)據(jù)當(dāng)中自動(dòng)學(xué)習(xí)出對(duì)于當(dāng)前問(wèn)題更合適的特征表示,已經(jīng)在圖像領(lǐng)域顯示出強(qiáng)大的能力。一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)分類器包含卷積層、激活函數(shù)、池化層、全連接層和Softmax分類器,同時(shí)還有一些防止網(wǎng)絡(luò)過(guò)擬合的結(jié)構(gòu)和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂(lè)推薦問(wèn)題[6]的啟發(fā),本文將采用聲譜圖結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方式對(duì)音樂(lè)數(shù)據(jù)進(jìn)行分析。

        2.3 特征提取與遷移學(xué)習(xí)方法

        卷積神經(jīng)網(wǎng)絡(luò)出色的表現(xiàn)一部分來(lái)源于其逐層提取特征的能力,也就是通過(guò)低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過(guò)對(duì)訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了可視化[7],發(fā)現(xiàn)隨著網(wǎng)絡(luò)層次的加深,提取出來(lái)的特征在語(yǔ)義上也更高級(jí)。得益于ImageNet大規(guī)模圖像數(shù)據(jù)集的發(fā)布和深度學(xué)習(xí)算法的研究,使得人們可以在數(shù)據(jù)量較小的情況下,通過(guò)遷移學(xué)習(xí)的方法更好更快地訓(xùn)練一個(gè)新的任務(wù)的模型。

        基于深度學(xué)習(xí)的遷移學(xué)習(xí)技術(shù),即在當(dāng)前任務(wù)數(shù)據(jù)樣本量較少的情況下,首先尋找擁有大量數(shù)據(jù)的相關(guān)問(wèn)題,通過(guò)對(duì)相關(guān)問(wèn)題的學(xué)習(xí)之后,再將網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)(即特征表示)應(yīng)用到當(dāng)前要解決的任務(wù)上來(lái)。具體可以采用兩種方式進(jìn)行知識(shí)遷移。其一,將預(yù)訓(xùn)練好的網(wǎng)絡(luò)作為特征提取器,后續(xù)增加的網(wǎng)絡(luò)或者分類器在前序提取的特征基礎(chǔ)上進(jìn)行訓(xùn)練。其二,使用預(yù)訓(xùn)練好的網(wǎng)絡(luò)參數(shù)初始化當(dāng)前更改過(guò)結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù),整個(gè)網(wǎng)絡(luò)與新增加的部分一同訓(xùn)練。

        Google的聲音理解小組在2017年初發(fā)布了大規(guī)模音頻數(shù)據(jù)集AudioSet[8],其中包含了兩百萬(wàn)個(gè)帶有人工標(biāo)簽的視頻音軌,并且在此數(shù)據(jù)集上預(yù)訓(xùn)練了一個(gè)音頻事件檢測(cè)網(wǎng)絡(luò)[9],本文的遷移學(xué)習(xí)研究將在此基礎(chǔ)上展開。

        3 實(shí)驗(yàn)部分

        3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)標(biāo)準(zhǔn)

        本文采用公開的類MIREX(MIREX-like)音樂(lè)情感數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。數(shù)據(jù)集包含903首30秒的音樂(lè)片段,如表1所示,每個(gè)片段屬于一個(gè)特定的類別(聚簇),每個(gè)類別由語(yǔ)義上相似的情感詞聚合而成。其中每個(gè)類別150首歌曲構(gòu)成平衡訓(xùn)練集,剩下20%的曲目則構(gòu)成測(cè)試集。

        表1 M IREX-like音樂(lè)情感數(shù)據(jù)集類別構(gòu)成

        實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用分類正確率(Accuracy)衡量。正確率的定義為下式,其中I為指示函數(shù),當(dāng)括號(hào)內(nèi)的等式為真時(shí),該值為1。

        3.2 數(shù)據(jù)預(yù)處理

        為便于后續(xù)在AudioSet模型上進(jìn)行遷移學(xué)習(xí),首先將MIREX-like數(shù)據(jù)集中所有的音樂(lè)片段按1秒分割提取成96×64的梅爾聲譜圖,構(gòu)成相應(yīng)的切片訓(xùn)練樣本和切片測(cè)試樣本,同時(shí)將同屬于一首測(cè)試歌曲的切片組合成完整的測(cè)試樣本。

        3.3 遷移學(xué)習(xí)模型

        實(shí)驗(yàn)中所采用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如表2所示。由于遷移學(xué)習(xí)的方式,該網(wǎng)絡(luò)的輸入層直至第三全連接層(FC3)的結(jié)構(gòu)與AudioSet模型結(jié)構(gòu)相同,包含了6個(gè)卷積層、4個(gè)池化層及3個(gè)全連接層,這部分的輸出稱為嵌入層(Embedding)。在AudioSet模型的基礎(chǔ)上增加一個(gè)小型神經(jīng)網(wǎng)絡(luò)(FC4+FC5+Softmax)或直接增加Softmax分類器(FC5+Softmax),用于學(xué)習(xí)Embed?ding層的高層語(yǔ)義特征與音樂(lè)情感之間的映射關(guān)系。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        本文首先進(jìn)行了普通的學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比試驗(yàn),其中遷移學(xué)習(xí)方式采用了前述的兩種方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示:

        表3 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比

        訓(xùn)練過(guò)程在30輪左右已經(jīng)基本收斂,所以基于同樣的訓(xùn)練輪數(shù)對(duì)結(jié)果進(jìn)行觀察。

        一方面,使用遷移學(xué)習(xí)的方式最終獲得的分類正確率均高于直接從少量數(shù)據(jù)中訓(xùn)練的結(jié)果,說(shuō)明從音頻大數(shù)據(jù)訓(xùn)練得到的特征表示在音樂(lè)情感識(shí)別的任務(wù)上也具有較好的能力。對(duì)于遷移學(xué)習(xí)方式2,由于要訓(xùn)練的網(wǎng)絡(luò)容量比方式1大得多,所以在不改變網(wǎng)絡(luò)架構(gòu)的情況下,正確率會(huì)較低一些。

        另一方面,在預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)之上增加更多的層次,只對(duì)正確率略有提升,也從另一角度說(shuō)明遷移學(xué)習(xí)過(guò)來(lái)的特征表示已經(jīng)具有較好的能力。

        同時(shí),本文也進(jìn)行了實(shí)驗(yàn),分析從AudioSet預(yù)訓(xùn)練網(wǎng)絡(luò)遷移音頻特征表示對(duì)音樂(lè)情感識(shí)別任務(wù)學(xué)習(xí)速度的影響,監(jiān)測(cè)訓(xùn)練過(guò)程收斂所花費(fèi)的訓(xùn)練輪次,實(shí)驗(yàn)結(jié)果如表4所示:

        表4 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比

        實(shí)驗(yàn)顯示,采用遷移學(xué)習(xí)方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練將收斂速度提升了一倍以上,與此同時(shí),將預(yù)訓(xùn)練網(wǎng)絡(luò)部分與新增網(wǎng)絡(luò)部分協(xié)同訓(xùn)練會(huì)進(jìn)一步提高收斂速度。

        4 結(jié)語(yǔ)

        本文基于梅爾聲譜圖、卷積神經(jīng)網(wǎng)絡(luò)及AudioSet模型研究了音樂(lè)情感識(shí)別的遷移學(xué)習(xí)方法。實(shí)驗(yàn)中著重對(duì)音頻遷移學(xué)習(xí)帶來(lái)的音樂(lè)情感識(shí)別能力提升和訓(xùn)練速度提升進(jìn)行了考察。由于AudioSet音頻事件檢測(cè)任務(wù)同音樂(lè)情感識(shí)別任務(wù)存在語(yǔ)義上的相關(guān)性,應(yīng)用遷移學(xué)習(xí)方式提高了原神經(jīng)網(wǎng)絡(luò)的分類性能,同時(shí)大幅提升了訓(xùn)練過(guò)程的收斂速度,證明了相關(guān)音頻領(lǐng)域中的特征表示在音樂(lè)情感識(shí)別任務(wù)中具有較好效果。在未來(lái)工作中,我們?nèi)孕枰M(jìn)一步解決許多現(xiàn)存問(wèn)題,第一,情感類別對(duì)于不同主體的歧義性導(dǎo)致訓(xùn)練數(shù)據(jù)的質(zhì)量不穩(wěn)定,產(chǎn)生的誤差將會(huì)進(jìn)一步影響后續(xù)的學(xué)習(xí)與識(shí)別。第二,研究基于不同的大規(guī)模數(shù)據(jù)的遷移學(xué)習(xí)對(duì)音樂(lè)情感識(shí)別效果的影響。

        參考文獻(xiàn):

        [1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

        [2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

        [3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.

        [4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).

        [5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.

        [6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

        [7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

        [8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.

        [9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).

        猜你喜歡
        情感音樂(lè)實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        圣誕音樂(lè)路
        兒童繪本(2017年24期)2018-01-07 15:51:37
        音樂(lè)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        日本一区二区偷拍视频| 中文在线天堂网www| 99精品国产兔费观看久久| 精品日韩av专区一区二区| 国产让女高潮的av毛片| 天堂а√在线最新版中文在线| 国产最新网站| 国产一区二区三区色区| 日韩三级一区二区三区| 凹凸在线无码免费视频| 亚洲久无码中文字幕热| 女同性恋一区二区三区四区| 日韩女优精品一区二区三区| 日韩毛片免费无码无毒视频观看| 911香蕉视频| 在线观看国产av一区二区| 精品人无码一区二区三区| 国产丝袜视频一区二区三区| 日韩精品欧美激情亚洲综合| 国产人妖直男在线视频| 深夜爽爽动态图无遮无挡| 真实国产乱啪福利露脸| 级毛片无码av| 国产影片一区二区三区| 97久久草草超级碰碰碰| 福利一区二区三区视频午夜观看| 亚洲国产av中文字幕| 亚洲精品久久国产精品| 亚洲精品无码久久久久| 精品国产午夜久久久久九九 | 久久精品国产精油按摩| 中文字幕天堂在线| 一区二区三区在线日本| 国产性自爱拍偷在在线播放| 三级在线看中文字幕完整版| 日本少妇被爽到高潮的免费| 一区二区三区在线观看人妖| 少妇性bbb搡bbb爽爽爽| 久久精品波多野结衣中文字幕| 午夜一区二区在线视频| 精品免费国产一区二区三区四区|