陳穎呈,陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海200237)
音樂流媒體技術(shù)的快速發(fā)展使得在線音樂數(shù)量呈指數(shù)增長,如何從海量數(shù)據(jù)集中檢索目標(biāo)歌曲的翻唱版本成為極具挑戰(zhàn)的問題。由于翻唱歌曲與原版歌曲在音調(diào)、節(jié)奏、結(jié)構(gòu)、旋律、和聲、音色、語言上均有可能存在差異,因此面向翻唱歌曲檢索的相似度計(jì)算模型研究是音樂信息檢索領(lǐng)域的難點(diǎn)問題。
考慮到翻唱版本之間基本保持不變的內(nèi)容是和聲演進(jìn)和主旋律,目前用于翻唱檢索的特征提取方法大致可分為兩類:音級輪廓(Pitch Class Profile,PCP)特征和主旋律(Main Melody,MLD)特征。PCP特征對于音調(diào)及響度變化具有很好的魯棒性[1],為了進(jìn)一步提高特征的分辨率,文獻(xiàn)[2]將人耳聽覺感知特性引入傳統(tǒng)的PCP模型,構(gòu)造了耳蝸音級輪廓(Cochlear Pitch Class Profile,CPCP)特征。為了解決翻唱版本間可能存在節(jié)拍差異的問題,文獻(xiàn)[3]將節(jié)拍提取與音級輪廓特征結(jié)合,構(gòu)造了節(jié)拍同步音級輪廓(Beat-Synchronous Chroma,BSC)特征。
主旋律是另一種常用于翻唱歌曲識別的特征[4],但該方法在多音源情況下的準(zhǔn)確度會(huì)受到影響。
在相似度計(jì)算方面,主流方法包括Qmax[5]、Dmax[6]和CC[7]算法??紤]到不同的特征提取和相似度計(jì)算方法在表現(xiàn)音樂相似度方面有很強(qiáng)的互補(bǔ)性,為了提高翻唱歌曲識別(CSI)的準(zhǔn)確率,近期有學(xué)者提出了多種相似度融合方法。文獻(xiàn)[8]將音樂原聲、主旋律及伴奏特征的相似度以直接連接的方法進(jìn)行融合。文獻(xiàn)[9]利用基于不同音頻特征的相似度分?jǐn)?shù)訓(xùn)練分類器,以判斷參考歌曲與測試歌曲是否屬于同一翻唱組合。文獻(xiàn)[10]利用生物領(lǐng)域中的相似度網(wǎng)絡(luò)融合(Similarity Network Fusion,SNF)[11]算法完成一級融合,然后采用混合馬爾可夫模型對融合后的相似度進(jìn)行二級融合。
基于張量積圖融合的音樂相似度模型(CSNFTPGs)[12]首先采用SNF技術(shù)對3種不同特征的相似度進(jìn)行兩兩融合,然后采用張量積圖融合技術(shù)將多個(gè)融合后的相似度矩陣映射到高維空間完成二級融合。雖然基于張量積圖融合的算法取得了很好的識別效果,但仍有可改進(jìn)的方面:(1)采用手工特征很難表現(xiàn)音樂內(nèi)容中蘊(yùn)含的非線性深層語義特性,而且很難實(shí)現(xiàn)良好的泛化能力。(2)相似度高維空間幾何結(jié)構(gòu)的學(xué)習(xí)導(dǎo)致計(jì)算復(fù)雜度的增加,無法適應(yīng)實(shí)際應(yīng)用。(3)忽略了音樂歌詞內(nèi)容在表現(xiàn)音樂相似性方面的優(yōu)勢。
為了充分利用音頻內(nèi)容和歌詞在表現(xiàn)音樂相似性方面的互補(bǔ)性,文獻(xiàn)[13]提出了基于多模態(tài)信息融合的翻唱檢索模型。該模型通過融合歌曲元數(shù)據(jù)、歌詞和音頻三方面的信息,從而顯著提高了CSI 的準(zhǔn)確性。本文受此啟發(fā),提出了一種改進(jìn)的基于多模態(tài)相似度融合的CSI 模型,對文獻(xiàn)[12]模型進(jìn)行了改進(jìn)。首先,在音頻特征提取階段,為了提高特征在表現(xiàn)音樂非線性深層語義的特性,采用了基于深度學(xué)習(xí)的音級輪廓(Deep Pitch Class Profile,DPCP)特征[14];其次,由于不同的文本特征具有一定的互補(bǔ)性[15],因此,在歌詞特征提取過程中,分別采用詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF·IDF)[16]及InferSent[17]技術(shù),抓住重點(diǎn)詞語頻次特性和句子的雙向語義依賴特性;最后,采用SNF算法對基于歌詞和音頻內(nèi)容的相似度進(jìn)行非線性融合以充分利用兩種模態(tài)的信息。為了驗(yàn)證算法的有效性,構(gòu)建了Covers2326多模態(tài)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,與文獻(xiàn)[12]算法相比,本文模型的識別準(zhǔn)確率有了大幅度的提高。
本文提出的基于多模態(tài)信息融合的CSI模型結(jié)構(gòu)如圖1所示,采用的翻唱示例樣本信息見表1。
1.1.1 音頻內(nèi)容特征提取方法 為了確保音頻特征提取的魯棒性和泛化能力,采用文獻(xiàn)[14]提出的基于深度學(xué)習(xí)的音級輪廓特征提取模型。該模型首先對輸入的采樣率為44 100 Hz的音頻信號進(jìn)行幀長為8 192、時(shí)移為4 410的分幀處理;然后,對每幀音頻進(jìn)行離散時(shí)間傅里葉變換(Discrete-Time Fourier Transform,STFT),并求取對數(shù)能量譜;最后,將對數(shù)能量譜作為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的輸入。
DNN 共包含3個(gè)隱含層,每個(gè)隱含層有512個(gè)節(jié)點(diǎn)并將Sigmoid 激活函數(shù)作用到模型的輸出層。網(wǎng)絡(luò)訓(xùn)練時(shí),采用二進(jìn)制交叉熵作為損失函數(shù)計(jì)算網(wǎng)絡(luò)的輸出向量標(biāo)簽與實(shí)際標(biāo)簽的差值。損失函數(shù)的計(jì)算公式如下:
為了防止過擬合,每個(gè)隱含層后面增加了舍棄概率為0.5的dropout 層。每迭代20次之后,若驗(yàn)證集的準(zhǔn)確率沒有增加,程序會(huì)自動(dòng)停止訓(xùn)練。
1.1.2 歌詞特征提取方法 文獻(xiàn)[13]指出由于翻唱歌曲的歌詞內(nèi)容在語義上有高度相似性,因此歌詞語義分析的引入有助于提升翻唱歌曲檢索的準(zhǔn)確率。本文分別采用TF·IDF和InferSent 技術(shù)對歌詞進(jìn)行分析,以描述歌詞之間基于詞頻和基于句子雙向語義依賴的相似性。
TF·IDF由詞頻(TF)和逆向文件頻率(IDF)的乘積組成,詞頻是指某一給定的詞在某一文檔中出現(xiàn)的頻率,逆向文件頻率是詞在語料庫中普遍性的度量。如果一個(gè)詞或短語在一篇文章中頻繁出現(xiàn),而在其他文章中很少出現(xiàn),則認(rèn)為該詞或短語具有良好的分類能力。TF和IDF的計(jì)算方法如式(2)和式(3)所示。
圖1 CSI 模型框圖Fig.1 Block diagram of CSI model
表1 3組翻唱歌曲的信息Table 1 Tracks'information of threecover sets
InferSent 句子編碼具有以下優(yōu)勢:(1)能抓住多個(gè)單詞或短語之間的內(nèi)在關(guān)系;(2)對于不同長度的句子,句子嵌入維度是一致的(本文將其設(shè)置為2 048),因此有效減少了計(jì)算復(fù)雜度且不會(huì)造成維度災(zāi)難。
圖 2 InferSent 句子編碼模型Fig.2 InferSent sentence encoding model
采用Qmax 相似度算法計(jì)算基于DPCP特征的音頻內(nèi)容相似度矩陣,同時(shí)采用余弦距離(Cosine Distance,CD)分別計(jì)算基于InferSent 及TF·IDF特征的歌詞相似度。本文采用基于InferSent 和基于TF·IDF特征的相似度的均值作為歌詞相似度。
采用CD方法分別對歌詞的TF·IDF特征和Infer-Sent 特征進(jìn)行相似度計(jì)算,計(jì)算方法如下:
其中:l1和l2分別表示歌曲歌詞及其翻唱歌曲歌詞的特征向量;I的值越小表示兩首歌的歌詞越相近。
傳統(tǒng)的翻唱歌曲識別是基于音頻內(nèi)容實(shí)現(xiàn)的,文獻(xiàn)[13]首次將歌曲名與歌詞引入CSI領(lǐng)域,研究證明了不同模態(tài)的信息具有一定的互補(bǔ)性。為了充分利用音頻內(nèi)容與歌詞間的互補(bǔ)性,本文采用SNF[11]算法融合音頻相似度及平均化處理后的歌詞相似度,具體實(shí)現(xiàn)步驟如下:
采用式(11)對歌曲的相似度進(jìn)行歸一化,以融合多種相似度矩陣。
為了驗(yàn)證模型的有效性,本文構(gòu)造了面向翻唱檢索的多模態(tài)樣本庫。首先根據(jù)Second Hand Song(SHS)(https://secondhandsongs.com/)提供的歌曲ID,在7digital 網(wǎng)站(https://www.7digital.com/)上爬取了12 730首翻唱歌曲的音頻文件。然后利用Million Song Dataset 網(wǎng) 站(http://millionsongdataset.com/)將12 730首歌曲的音頻文件ID映射為相應(yīng)的歌詞ID,并利用Musixmatch 網(wǎng)站(https://www.musixmatch.com/)提供的API 獲取6 257首歌曲的歌詞。在此過程中,一方面去除了歌詞完全相同的樣本,另一方面利用多元翻譯(Multi-source Translation,MTrans)將所有非英文的歌詞全部轉(zhuǎn)換成英文,最終,構(gòu)建了Covers 2326多模態(tài)數(shù)據(jù)庫。該數(shù)據(jù)庫由6 257首歌曲的音頻文件及其相應(yīng)的歌詞文本文件組成,共分為2 326個(gè)翻唱組合。
為了驗(yàn)證基于多模態(tài)的翻唱歌曲檢索算法的性能,選取TOP-10[19]、平均正確率均值(Mean Average Precision,MAP)、平均排序倒數(shù)均值(Mean averaged Reciprocal Rank, MaRR)及秩均值(Mean Rank, MR)作為評價(jià)指標(biāo)。其中,TOP-10、MAP、MaRR 的值越大表明基于多模態(tài)的算法性能越好,而MR 的值越小表明其性能越好。
基于單模態(tài)的翻唱歌曲識別準(zhǔn)確率如表2所示。實(shí)驗(yàn)結(jié)果表明基于深度學(xué)習(xí)的音頻特征提取算法(DPCP[14])優(yōu)于基于手工特征的方法(CPCP[2]、MLD[4]及BSC[3]);基于歌詞分析的方法遠(yuǎn)遠(yuǎn)優(yōu)于基于音頻的方法。
基于多模態(tài)融合的翻唱歌曲識別準(zhǔn)確率如表3所示。實(shí)驗(yàn)結(jié)果表明在歌詞特征一定的情況下,包含DPCP的多模態(tài)相似度融合算法優(yōu)于包含CPCP、MLD或BSC的多模態(tài)融合算法,從而進(jìn)一步證明了基于深度學(xué)習(xí)的音頻特征提取算法優(yōu)于傳統(tǒng)的手工特征提取方法。
表2 基于單模態(tài)的翻唱歌曲識別算法性能比較Table 2 CSI performance comparison of algorithms based on singlemodal
通過對比基于InferSent、TF·IDF及InferSent*TF·IDF的CSI 識別準(zhǔn)確率,可以看出不同特征的歌詞相似度具有互補(bǔ)性。(1)DPCP_Qmax+InferSent 的融合算法優(yōu)于DPCP_Qmax 或InferSent,DPCP_Qmax+TF·IDF優(yōu)于DPCP、Qmax 或TF·IDF,說明音頻內(nèi)容分析與歌詞文本分析在一定程度上也具有互補(bǔ)性。(2)DPCP_Qmax+InferSent*TF·IDF的融合算法優(yōu)于DPCP_Qmax+InferSent 或DPCP_Qmax+TF·IDF說明不同的文本特征之間存在一定的共性和互補(bǔ)性。(3)本文模型(DPCP_Qmax+InferSent*TF·IDF)優(yōu)于CSNFTPGs。
為了進(jìn)一步說明本文模型優(yōu)于CSNF-TPGs,選取Covers2326數(shù)據(jù)集中的257首歌曲作為實(shí)驗(yàn)對象進(jìn)行對比實(shí)驗(yàn),得到的相似度矩陣如圖3所示。其中,圖3(a)表示CSNF-TPGs的相似度矩陣及其縮略圖的擴(kuò)大版本,圖3(b)表示本文模型的相似度矩陣及其縮略圖的擴(kuò)大版本。實(shí)際上,該圖是一個(gè)257×257的矩陣表示,矩陣中每個(gè)點(diǎn)的大小表示不同歌曲間的相似度。為了更加清晰地看出歌曲間的相似程度,從上述257首歌曲的相似度矩陣中截取10首歌曲的相似度,其中,每個(gè)綠色的線框表示一個(gè)翻唱組合,因而,這10首歌曲共分為5個(gè)翻唱組合。可以明顯看出,DPCP_Qmax+InferSent*TF·IDF比CSNFTPGs的效果好,這表明利用多模態(tài)信息融合的方法能夠充分結(jié)合歌曲的不同方面的信息,增加組內(nèi)相似性及減少組間相似性,從而有效地減少相似度矩陣中存在的噪聲。
為了對比基于張量積圖融合的音樂相似度模型[12]與本文的基于多模態(tài)的CSI模型的時(shí)間復(fù)雜度,選取Covers2326數(shù)據(jù)集作為實(shí)驗(yàn)對象,分別計(jì)算兩種模型相似度融合的時(shí)間復(fù)雜度。為了保證這兩種算法的運(yùn)行環(huán)境相同,實(shí)驗(yàn)設(shè)備統(tǒng)一為8 GB內(nèi)存,處理器型號為Intel(R)Core(TM)i7-7700 CPU@3.60 GHz,MATLAB2014a。
兩種模型的時(shí)間復(fù)雜度如表4所示,其中,DPCP_Qmax+InferSent*TF·IDF模型的運(yùn)行時(shí)間為134.01 s,CSNF-TPGs 模型的運(yùn)行時(shí)間為15 220.27 s。本文模型比基于張量積圖融合的音樂相似度模型在計(jì)算速度上提高了112 倍,表明DPCP_Qmax+InferSent*TF·IDF模型的時(shí)間復(fù)雜度更低,更具有實(shí)用性。
表3 基于多模態(tài)的翻唱歌曲識別算法性能比較Table3 CSIperformance comparison of algorithms based on multi-modal
圖3 CSNF-TPGs 與本文模型的性能比較Fig.3 Performancecomparison between CSNF-TPGs and the proposed model
表4 模型時(shí)間復(fù)雜度比較Table4 Comparison of timecomplexity between two models
本文受到文獻(xiàn)[13]的啟發(fā),提出了基于音頻內(nèi)容和歌詞相似度融合的翻唱歌曲識別模型。該模型充分利用音樂音頻內(nèi)容和音樂歌詞在表現(xiàn)音樂相似性方面的互補(bǔ)性,從而達(dá)到了比基于單個(gè)音頻特征或音頻特征相似度融合方法更高的識別準(zhǔn)確率。同時(shí),由于文本處理速度比音頻處理速度快,且張量積圖融合的速度較慢,因此所提出算法實(shí)現(xiàn)了更低的時(shí)間復(fù)雜度。