于超
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
近年來(lái),隨著移動(dòng)智能設(shè)備硬件性能和產(chǎn)品設(shè)計(jì)水平的不斷提高。人們可以隨時(shí)隨地享受諸多便捷的服務(wù),而作為藝術(shù)一大領(lǐng)域的音樂(lè),也成為人們生活不可或缺的一部分。得益于大數(shù)據(jù)和計(jì)算力的增長(zhǎng)以及智能算法的研究,機(jī)器學(xué)習(xí)技術(shù)開始廣泛應(yīng)用到互聯(lián)網(wǎng)產(chǎn)品中,使得用戶可以獲得更加個(gè)性化的體驗(yàn)。
基于機(jī)器學(xué)習(xí)的個(gè)性化音樂(lè)推薦系統(tǒng)也逐漸成為研究熱點(diǎn),而音樂(lè)的情感則是音樂(lè)內(nèi)容本身非常重要的語(yǔ)義信息。本文主要研究了基于卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)情感識(shí)別遷移學(xué)習(xí)方法,并在公開音樂(lè)情感數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)及分析。
音樂(lè)情感識(shí)別的研究可以追溯到1988年[1],在隨后的三十年里越來(lái)越受到相關(guān)研究者的重視。時(shí)至今日,音樂(lè)情感識(shí)別的研究仍然面臨諸多困難和挑戰(zhàn)。
首先,當(dāng)前領(lǐng)域由于缺乏高質(zhì)量和統(tǒng)一的研究數(shù)據(jù)集,不同研究員只能自建數(shù)據(jù)集進(jìn)行研究,這樣不利于研究者之間進(jìn)行比較和判斷,因而影響了研究的發(fā)展。現(xiàn)有的音樂(lè)識(shí)別方面的公開數(shù)據(jù)集,較多是曲風(fēng)識(shí)別以及社交網(wǎng)絡(luò)標(biāo)簽識(shí)別,少量的專注于音樂(lè)情感識(shí)別的數(shù)據(jù)集中,也存在數(shù)據(jù)量太少或類別嚴(yán)重不平衡的問(wèn)題。自2007年起,音樂(lè)信息檢索領(lǐng)域的知名競(jìng)賽MIREX[2](Music Information Retrieval Evaluation eX?change)開始加入了音樂(lè)情感分類的任務(wù),并提供了一套建立情感分類數(shù)據(jù)集的方法,并構(gòu)建了相應(yīng)的數(shù)據(jù)集供參賽者進(jìn)行評(píng)估和比較,MIREX每年一次的舉辦為該領(lǐng)域的研究發(fā)展起到了很好的作用,但其數(shù)據(jù)集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數(shù)據(jù)集收集方法,構(gòu)建了一套公開的音樂(lè)情感分類數(shù)據(jù)集,稱為類MIREX數(shù)據(jù)集[3],從而為不同研究者在該領(lǐng)域進(jìn)行研究提供了很好的助益,因此,本文也將在此數(shù)據(jù)集上開展實(shí)驗(yàn)。
此外,近年來(lái)大數(shù)據(jù)的發(fā)展讓人們認(rèn)識(shí)到,少量的采樣會(huì)影響對(duì)真實(shí)世界的認(rèn)知,對(duì)于機(jī)器智能算法來(lái)說(shuō)也是一樣,而相比于音樂(lè)曲風(fēng)識(shí)別的公開數(shù)據(jù)集已經(jīng)達(dá)到了十萬(wàn)首的數(shù)量級(jí)[4],目前的音樂(lè)情感數(shù)據(jù)集在曲目數(shù)量上仍較少,本文將研究基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,在當(dāng)前數(shù)據(jù)量較少的情況下改善系統(tǒng)的識(shí)別能力。
圖1 一首音樂(lè)的原始波形(上)與對(duì)應(yīng)的聲譜圖(下)
梅爾聲譜圖是一種常用的音頻信號(hào)表示方法,圖1展示了一首音樂(lè)的原始波形極其對(duì)應(yīng)的聲譜圖。在數(shù)字信號(hào)領(lǐng)域中,將時(shí)間信號(hào)轉(zhuǎn)換為時(shí)間-頻率表示是一種有助于信號(hào)分析的方法,聲譜圖的生成原理也類似,即先將音頻信號(hào)根據(jù)設(shè)置的時(shí)間窗口分成許多幀,對(duì)每一幀音頻,通過(guò)短時(shí)傅立葉變換生成頻譜圖,同時(shí)考慮到梅爾頻率更加符合人類的聽覺(jué)特點(diǎn),將頻譜圖映射到梅爾頻率上,再把所有幀的頻譜在時(shí)間軸上拼接成一張完整的聲譜圖。
將音樂(lè)信號(hào)表示為梅爾聲譜圖,有助于通過(guò)圖像這個(gè)載體,進(jìn)行后續(xù)的音樂(lè)情感識(shí)別。
自2012年基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet[5]在Ima?geNet圖像識(shí)別競(jìng)賽上大放異彩起,深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域得到了快速發(fā)展,相較于傳統(tǒng)人工設(shè)計(jì)的特征,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層卷積和反向傳播算法,從數(shù)據(jù)當(dāng)中自動(dòng)學(xué)習(xí)出對(duì)于當(dāng)前問(wèn)題更合適的特征表示,已經(jīng)在圖像領(lǐng)域顯示出強(qiáng)大的能力。一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)分類器包含卷積層、激活函數(shù)、池化層、全連接層和Softmax分類器,同時(shí)還有一些防止網(wǎng)絡(luò)過(guò)擬合的結(jié)構(gòu)和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂(lè)推薦問(wèn)題[6]的啟發(fā),本文將采用聲譜圖結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方式對(duì)音樂(lè)數(shù)據(jù)進(jìn)行分析。
卷積神經(jīng)網(wǎng)絡(luò)出色的表現(xiàn)一部分來(lái)源于其逐層提取特征的能力,也就是通過(guò)低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過(guò)對(duì)訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了可視化[7],發(fā)現(xiàn)隨著網(wǎng)絡(luò)層次的加深,提取出來(lái)的特征在語(yǔ)義上也更高級(jí)。得益于ImageNet大規(guī)模圖像數(shù)據(jù)集的發(fā)布和深度學(xué)習(xí)算法的研究,使得人們可以在數(shù)據(jù)量較小的情況下,通過(guò)遷移學(xué)習(xí)的方法更好更快地訓(xùn)練一個(gè)新的任務(wù)的模型。
基于深度學(xué)習(xí)的遷移學(xué)習(xí)技術(shù),即在當(dāng)前任務(wù)數(shù)據(jù)樣本量較少的情況下,首先尋找擁有大量數(shù)據(jù)的相關(guān)問(wèn)題,通過(guò)對(duì)相關(guān)問(wèn)題的學(xué)習(xí)之后,再將網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)(即特征表示)應(yīng)用到當(dāng)前要解決的任務(wù)上來(lái)。具體可以采用兩種方式進(jìn)行知識(shí)遷移。其一,將預(yù)訓(xùn)練好的網(wǎng)絡(luò)作為特征提取器,后續(xù)增加的網(wǎng)絡(luò)或者分類器在前序提取的特征基礎(chǔ)上進(jìn)行訓(xùn)練。其二,使用預(yù)訓(xùn)練好的網(wǎng)絡(luò)參數(shù)初始化當(dāng)前更改過(guò)結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù),整個(gè)網(wǎng)絡(luò)與新增加的部分一同訓(xùn)練。
Google的聲音理解小組在2017年初發(fā)布了大規(guī)模音頻數(shù)據(jù)集AudioSet[8],其中包含了兩百萬(wàn)個(gè)帶有人工標(biāo)簽的視頻音軌,并且在此數(shù)據(jù)集上預(yù)訓(xùn)練了一個(gè)音頻事件檢測(cè)網(wǎng)絡(luò)[9],本文的遷移學(xué)習(xí)研究將在此基礎(chǔ)上展開。
本文采用公開的類MIREX(MIREX-like)音樂(lè)情感數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。數(shù)據(jù)集包含903首30秒的音樂(lè)片段,如表1所示,每個(gè)片段屬于一個(gè)特定的類別(聚簇),每個(gè)類別由語(yǔ)義上相似的情感詞聚合而成。其中每個(gè)類別150首歌曲構(gòu)成平衡訓(xùn)練集,剩下20%的曲目則構(gòu)成測(cè)試集。
表1 M IREX-like音樂(lè)情感數(shù)據(jù)集類別構(gòu)成
實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用分類正確率(Accuracy)衡量。正確率的定義為下式,其中I為指示函數(shù),當(dāng)括號(hào)內(nèi)的等式為真時(shí),該值為1。
為便于后續(xù)在AudioSet模型上進(jìn)行遷移學(xué)習(xí),首先將MIREX-like數(shù)據(jù)集中所有的音樂(lè)片段按1秒分割提取成96×64的梅爾聲譜圖,構(gòu)成相應(yīng)的切片訓(xùn)練樣本和切片測(cè)試樣本,同時(shí)將同屬于一首測(cè)試歌曲的切片組合成完整的測(cè)試樣本。
實(shí)驗(yàn)中所采用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如表2所示。由于遷移學(xué)習(xí)的方式,該網(wǎng)絡(luò)的輸入層直至第三全連接層(FC3)的結(jié)構(gòu)與AudioSet模型結(jié)構(gòu)相同,包含了6個(gè)卷積層、4個(gè)池化層及3個(gè)全連接層,這部分的輸出稱為嵌入層(Embedding)。在AudioSet模型的基礎(chǔ)上增加一個(gè)小型神經(jīng)網(wǎng)絡(luò)(FC4+FC5+Softmax)或直接增加Softmax分類器(FC5+Softmax),用于學(xué)習(xí)Embed?ding層的高層語(yǔ)義特征與音樂(lè)情感之間的映射關(guān)系。
本文首先進(jìn)行了普通的學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比試驗(yàn),其中遷移學(xué)習(xí)方式采用了前述的兩種方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示:
表3 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比
訓(xùn)練過(guò)程在30輪左右已經(jīng)基本收斂,所以基于同樣的訓(xùn)練輪數(shù)對(duì)結(jié)果進(jìn)行觀察。
一方面,使用遷移學(xué)習(xí)的方式最終獲得的分類正確率均高于直接從少量數(shù)據(jù)中訓(xùn)練的結(jié)果,說(shuō)明從音頻大數(shù)據(jù)訓(xùn)練得到的特征表示在音樂(lè)情感識(shí)別的任務(wù)上也具有較好的能力。對(duì)于遷移學(xué)習(xí)方式2,由于要訓(xùn)練的網(wǎng)絡(luò)容量比方式1大得多,所以在不改變網(wǎng)絡(luò)架構(gòu)的情況下,正確率會(huì)較低一些。
另一方面,在預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)之上增加更多的層次,只對(duì)正確率略有提升,也從另一角度說(shuō)明遷移學(xué)習(xí)過(guò)來(lái)的特征表示已經(jīng)具有較好的能力。
同時(shí),本文也進(jìn)行了實(shí)驗(yàn),分析從AudioSet預(yù)訓(xùn)練網(wǎng)絡(luò)遷移音頻特征表示對(duì)音樂(lè)情感識(shí)別任務(wù)學(xué)習(xí)速度的影響,監(jiān)測(cè)訓(xùn)練過(guò)程收斂所花費(fèi)的訓(xùn)練輪次,實(shí)驗(yàn)結(jié)果如表4所示:
表4 普通學(xué)習(xí)方式與遷移學(xué)習(xí)方式的對(duì)比
實(shí)驗(yàn)顯示,采用遷移學(xué)習(xí)方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練將收斂速度提升了一倍以上,與此同時(shí),將預(yù)訓(xùn)練網(wǎng)絡(luò)部分與新增網(wǎng)絡(luò)部分協(xié)同訓(xùn)練會(huì)進(jìn)一步提高收斂速度。
本文基于梅爾聲譜圖、卷積神經(jīng)網(wǎng)絡(luò)及AudioSet模型研究了音樂(lè)情感識(shí)別的遷移學(xué)習(xí)方法。實(shí)驗(yàn)中著重對(duì)音頻遷移學(xué)習(xí)帶來(lái)的音樂(lè)情感識(shí)別能力提升和訓(xùn)練速度提升進(jìn)行了考察。由于AudioSet音頻事件檢測(cè)任務(wù)同音樂(lè)情感識(shí)別任務(wù)存在語(yǔ)義上的相關(guān)性,應(yīng)用遷移學(xué)習(xí)方式提高了原神經(jīng)網(wǎng)絡(luò)的分類性能,同時(shí)大幅提升了訓(xùn)練過(guò)程的收斂速度,證明了相關(guān)音頻領(lǐng)域中的特征表示在音樂(lè)情感識(shí)別任務(wù)中具有較好效果。在未來(lái)工作中,我們?nèi)孕枰M(jìn)一步解決許多現(xiàn)存問(wèn)題,第一,情感類別對(duì)于不同主體的歧義性導(dǎo)致訓(xùn)練數(shù)據(jù)的質(zhì)量不穩(wěn)定,產(chǎn)生的誤差將會(huì)進(jìn)一步影響后續(xù)的學(xué)習(xí)與識(shí)別。第二,研究基于不同的大規(guī)模數(shù)據(jù)的遷移學(xué)習(xí)對(duì)音樂(lè)情感識(shí)別效果的影響。
參考文獻(xiàn):
[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.
[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME
[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.
[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).
[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.
[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.
[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.
[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.
[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).