楊 帆, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
基于交叉遞歸圖和局部匹配的翻唱歌曲識(shí)別
楊帆,陳寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
摘要:基于Qmax算法,提出了一種新的序列局部匹配算法,用于翻唱歌曲識(shí)別。該算法通過(guò)改變所使用的步長(zhǎng)條件使得匹配過(guò)程既能防止病態(tài)彎曲又能增加局部匹配分?jǐn)?shù)。為了驗(yàn)證該算法在翻唱歌曲識(shí)別中的有效性,采用基于節(jié)拍同步的音級(jí)輪廓(PCP)特征作為測(cè)試對(duì)象,并利用最佳移位索引(OTI)實(shí)現(xiàn)基調(diào)不變性;根據(jù)所提取的特征構(gòu)造交叉遞歸圖(CRP),利用提出的局部匹配算法計(jì)算序列之間的相似度。實(shí)驗(yàn)結(jié)果表明,該方法獲得了比傳統(tǒng)匹配算法,如動(dòng)態(tài)時(shí)間規(guī)整(DTW)、互相關(guān)和Qmax算法更高的識(shí)別準(zhǔn)確率。
關(guān)鍵詞:翻唱歌曲識(shí)別; 交叉遞歸圖; Qmax; 局部匹配
隨著信息技術(shù)的發(fā)展,音樂(lè)在互聯(lián)網(wǎng)上大量傳播,促進(jìn)了基于內(nèi)容的音樂(lè)信息檢索(Music Information Retrieval,MIR)技術(shù)的發(fā)展。翻唱歌曲識(shí)別(Cover Song Identification,CSI)作為MIR的一部分,在理論方面能為定義模糊、難以客觀量化的音樂(lè)相似性度量提供重要的依據(jù)和模型,為音樂(lè)認(rèn)知的研究提供重要的數(shù)學(xué)模型[1],在實(shí)際應(yīng)用中對(duì)音樂(lè)的版權(quán)保護(hù)和管理都有重要的意義。
翻唱歌曲是一個(gè)源自原始音樂(lè)的新的演唱、表演或重新錄音版本[2]。由于獲得翻唱歌曲方法的多樣化,如對(duì)原始歌曲進(jìn)行混錄、不同歌手的再創(chuàng)作等,使得不同翻唱版本在音色、節(jié)拍速度、結(jié)構(gòu)、基調(diào)等方面都可能存在巨大差異,造成了CSI面臨挑戰(zhàn)[1]。
現(xiàn)階段CSI研究主要集中在特征提取和相似性度量?jī)蓚€(gè)方面。特征提取方面,多采用音級(jí)輪廓(Pitch Class Profile,PCP)或稱chroma特征[3]及其變種,如基于瞬時(shí)頻率的PCP(IF PCP)[4]和基于和聲的PCP(Harmonic PCP,HPCP)[5]。文獻(xiàn)[6]證明了PCP特征具有對(duì)噪聲和非調(diào)性聲音的魯棒性,以及與音色、力度無(wú)關(guān)等優(yōu)點(diǎn)。相似性度量方面,Gomez等[7]采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)進(jìn)行全局匹配,該方法能夠自動(dòng)尋找發(fā)現(xiàn)不同長(zhǎng)度序列的最優(yōu)匹配路徑,但可能會(huì)產(chǎn)生病態(tài)彎曲。Ellis等[4]計(jì)算兩首歌曲PCP特征序列的互相關(guān),取最大峰值作為相似度,但準(zhǔn)確率較低。Serra等[8]通過(guò)構(gòu)建二值相似矩陣,采用Smith-Waterman算法通過(guò)打分的方式計(jì)算兩個(gè)序列之間的局部相似度,證明了局部匹配算法在結(jié)果上明顯優(yōu)于全局匹配算法。Serra等[9]在文獻(xiàn)[8]的基礎(chǔ)上,提出了使用交叉遞歸圖(Cross Recurrence Plot,CRP)來(lái)構(gòu)建相似矩陣,并采用遞歸量化分析從CRP中提取Qmax作為相似性度量,其中,Qmax是兩條序列的匹配分?jǐn)?shù)。但是,由于文獻(xiàn)[8-9]為了防止病態(tài)彎曲的產(chǎn)生,改變了遞歸量化分析時(shí)的步長(zhǎng)條件,因此導(dǎo)致最終匹配分?jǐn)?shù)的減小。Degani等[10]同時(shí)使用Qmax和DTW方法,將歸一化后的Qmax和DTW度量組成二維向量,作為新的相似性度量,證明了使用多種相似性度量結(jié)合的結(jié)果要優(yōu)于使用單一的方法。
針對(duì)Qmax的不足,本文提出了一種新的局部匹配算法,命名為Dmax。通過(guò)改變Qmax在遞歸量化分析中使用的步長(zhǎng)條件,在不產(chǎn)生病態(tài)彎曲的條件下,盡可能地提高最終匹配分?jǐn)?shù)。對(duì)于構(gòu)建CSI系統(tǒng),采用基于節(jié)拍同步的IF PCP特征作為輸入,并利用最佳移位索引(Optimal Transposition Index,OTI)算法[8]進(jìn)行基調(diào)變換,構(gòu)建CRP并從中提取Dmax以進(jìn)行局部匹配。在算法的評(píng)估階段,采用著名的“covers80”數(shù)據(jù)庫(kù)[11]作為測(cè)試對(duì)象,實(shí)驗(yàn)結(jié)果證明本文算法比傳統(tǒng)的算法獲得了更高的準(zhǔn)確度。就平均準(zhǔn)確率均值(Mean of Average Precisions,MAP)[12]和TOP-1而言,該算法比Qmax算法分別提高了3.1%和5%。
1翻唱歌曲識(shí)別系統(tǒng)
1.1概述
CSI系統(tǒng)一般分為5個(gè)部分:特征提取、基調(diào)不變性、速度不變性、結(jié)構(gòu)不變性和相似性計(jì)算[2]。特征提取和相似性計(jì)算為CSI的核心步驟,其余部分則可以有效地提高識(shí)別算法的準(zhǔn)確率。如圖1所示,本文采用文獻(xiàn)[4]提出的IF PCP特征作為輸入,利用文獻(xiàn)[13]提出的算法對(duì)其進(jìn)行節(jié)拍同步,以實(shí)現(xiàn)速度不變性;利用文獻(xiàn)[8]提出的OTI算法進(jìn)行基調(diào)變換,以實(shí)現(xiàn)基調(diào)不變性;根據(jù)移位后的基于節(jié)拍的IF PCP特征構(gòu)建CRP,通過(guò)遞歸量化分析,提取同步Dmax,完成兩首歌曲間的相似性計(jì)算。
圖1 翻唱歌曲識(shí)別系統(tǒng)總框圖
1.2基于節(jié)拍同步的IF PCP特征提取
PCP作為一種中層特征,充分保留了歌曲的旋律信息。IF PCP通過(guò)使用瞬時(shí)頻率,而非使用傅里葉變換后的頻率進(jìn)行頻譜映射,有效地解決了傅里葉變換帶來(lái)的頻譜模糊問(wèn)題[4]。根據(jù)求得的頻譜,將每一幀的能量壓縮到與8度無(wú)關(guān)的12個(gè)半音上,頻譜映射公式
(1)
其中:fref為參考頻率,可取鋼琴上的標(biāo)準(zhǔn)A所對(duì)應(yīng)的440 Hz;fs(k)對(duì)應(yīng)頻譜中第k個(gè)分量的頻率;round為四舍五入;mod為取模運(yùn)算,在fs(k) (2) 式中:X(k)為頻譜幅度;hp,n為第n幀PCP特征在音級(jí)p上的強(qiáng)度。 本文采用文獻(xiàn)[13]中的節(jié)拍跟蹤算法,該方法將短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)后得到的頻譜轉(zhuǎn)化為40維的Mel頻譜,沿時(shí)間軸進(jìn)行一維差分后沿頻率軸相加,通過(guò)0.4 Hz的高通截?cái)酁V波器獲得起始能量包絡(luò),并對(duì)其進(jìn)行自相關(guān),在對(duì)數(shù)域上加高斯窗,以最大滯后值對(duì)應(yīng)的時(shí)間估計(jì)節(jié)拍速度。以起始能量包絡(luò)和節(jié)拍速度作為輸入,采用動(dòng)態(tài)規(guī)劃獲得節(jié)拍位置。 通過(guò)節(jié)拍信息對(duì)IF PCP特征進(jìn)行分段,得到基于節(jié)拍同步的IF PCP特征: (3) 其中:M為一個(gè)節(jié)拍內(nèi)PCP特征的幀數(shù);hn={hp,n}為第n幀的PCP矢量;ki為第i拍的起始點(diǎn)幀位置;xi為第i拍的PCP矢量,i=1,…,Nx。 1.3最佳移位索引 OTI算法[8]是一個(gè)簡(jiǎn)單的獲得基調(diào)不變性的方法,通過(guò)分別對(duì)歌曲A、B的PCP特征進(jìn)行平均運(yùn)算來(lái)獲得它們的全局PCP,記為xgl和ygl,通過(guò)式(4)獲得 (4) 其中:N為PCP的維數(shù);circshiftR代表了向右的循環(huán)移位,且id為循環(huán)移位的位數(shù)。此時(shí)可將歌曲B的PCP特征變換到與歌曲A相同的基調(diào)上。 (5) 1.4序列的局部相似性計(jì)算 1.4.1交叉遞歸圖對(duì)基于節(jié)拍同步的PCP特征進(jìn)行相空間重構(gòu)是繪制交叉遞歸圖的第一步。令歌曲A的PCP特征矢量為x={xp,i},重構(gòu)后為a={ai},其中 (6) 式中:i=1,…,Nx-(m-1)τ;m為插入的維數(shù);τ為延時(shí)。 (7) 1.4.2Dmax提取采用不同的步長(zhǎng)條件對(duì)Qmax算法進(jìn)行改進(jìn),使用遞歸量化分析提取新的相似性度量Dmax進(jìn)行局部匹配。 提取Dmax過(guò)程可以看作是對(duì)兩個(gè)序列進(jìn)行比對(duì)打分的過(guò)程。根據(jù)所提取的CRP,可以構(gòu)建相應(yīng)的打分矩陣,將之記為D,該矩陣的大小為[Nx-(m-1)τ]×[Ny-(m-1)τ]。Dmax為矩陣D中的最大值,代表兩個(gè)序列比對(duì)過(guò)程中的最優(yōu)局部匹配所獲得的最大分?jǐn)?shù)。 (8) 式中:i=4,…,Nx-(m-1)τ;j=4,…,Ny-(m-1)τ;γ(z)為懲罰函數(shù), (9) 式中:γo為起始空位罰分項(xiàng);γe則為延伸空位罰分項(xiàng)。 在創(chuàng)作翻唱版本的過(guò)程中,常常會(huì)有增減和弦或改變和弦的現(xiàn)象,從而使得歌曲的音調(diào)進(jìn)程發(fā)生改變,造成序列比對(duì)過(guò)程中本應(yīng)匹配的位置會(huì)出現(xiàn)空位或不匹配[9]。如果在構(gòu)建打分矩陣的過(guò)程中,不采用罰分處理,而是在CRP中為0的點(diǎn)處直接將D中相對(duì)應(yīng)的點(diǎn)進(jìn)行0分化,可能會(huì)造成一個(gè)十分相似的片段,只因幾個(gè)不匹配的點(diǎn)而出現(xiàn)中間截?cái)嗟默F(xiàn)象,減小最終匹配分?jǐn)?shù)。通過(guò)罰分的方式,可以去除這種截?cái)喱F(xiàn)象,從而應(yīng)對(duì)在創(chuàng)作翻唱歌曲過(guò)程中可能出現(xiàn)的和弦變化。 從式(8)中可以看出,算法通過(guò)將打分矩陣D中可能出現(xiàn)的負(fù)分變?yōu)?,使之成為一種局部匹配算法,每個(gè)成為0的點(diǎn)都可以作為一個(gè)新的局部匹配片段的起點(diǎn),用來(lái)對(duì)抗創(chuàng)作翻唱版本時(shí)可能出現(xiàn)的歌曲結(jié)構(gòu)改變。與原始歌曲相比翻唱歌曲,一般存在片段的插入或刪減,或改變片段出現(xiàn)的順序,造成歌曲的結(jié)構(gòu)發(fā)生變化,從而引起兩首歌曲的相似路徑可能并非為CRP中的主對(duì)角線,因此在翻唱歌曲識(shí)別時(shí)采用局部匹配比采用全局匹配更加具有優(yōu)勢(shì)。 獲得打分矩陣D后,從中提取Dmax,即矩陣D中的最大值, Dmax=max(Di,j) (10) 式中:i=1,…,Nx-(m-1)τ;j=1,…,Ny-(m-1)τ。 圖2示出了打分矩陣D的示意圖,其中圖2(a)為兩首翻唱歌曲的打分矩陣,地下絲絨樂(lè)隊(duì)的《AllTomorrow′sParties》作為橫軸,Japan樂(lè)隊(duì)的《AllTomorrow′sParties》作為縱軸,最終Dmax得分為577;圖2(b)所示為兩首非翻唱歌曲的打分矩陣,BrianWilson的《Caroline,No》作為橫軸,RobertPalmer的 《AddictedtoLove》作為縱軸,最終Dmax得分為108,兩者參數(shù)均為γo=1,γe=1.5。圖中黑色曲線為局部最優(yōu)匹配路徑,是指在遞歸量化分析時(shí),獲得局部最大分?jǐn)?shù)時(shí)所經(jīng)過(guò)的路徑,終點(diǎn)為最大分?jǐn)?shù)在打分矩陣中的位置,起點(diǎn)則為兩條序列在這個(gè)局部匹配片段中的第1個(gè)匹配點(diǎn)。從圖中可以清晰地發(fā)現(xiàn),兩首翻唱歌曲存在一個(gè)十分相似的片段。時(shí)間軸以節(jié)拍(beat)為單位。 圖2 翻唱歌曲與非翻唱歌曲打分矩陣比較 為了便于觀察Dmax和Qmax的不同,給出Qmax的計(jì)算公式如下: (11) 式中Qmax為矩陣Q中的最大值。 從式(11)可以看出,Qmax采用的步長(zhǎng)條件為pl+1-pl∈{[1,1],[2,1],[1,2]},與Dmax所采用的步長(zhǎng)條件有著明顯的不同,其中pl為最優(yōu)局部匹配路徑上的第l個(gè)點(diǎn),l=1、2、…、L-1,L為最優(yōu)局部匹配路徑的長(zhǎng)度。圖3給出了兩種不同步長(zhǎng)條件的示意圖[15]。 圖3(a)所示為Qmax采用的步長(zhǎng)條件,圖3(b)所示為Dmax采用的步長(zhǎng)條件。使用不同的步長(zhǎng)條件,在進(jìn)行局部匹配時(shí)會(huì)產(chǎn)生不同的最優(yōu)局部匹配路徑,造成最終得到的匹配分?jǐn)?shù)產(chǎn)生差異。 圖3 兩種不同的步長(zhǎng)條件 2實(shí)驗(yàn)仿真結(jié)果與分析 2.1實(shí)驗(yàn)仿真環(huán)境與數(shù)據(jù)庫(kù) 為了驗(yàn)證算法在CSI系統(tǒng)中的有效性,采用著名的“covers80”數(shù)據(jù)庫(kù)對(duì)算法進(jìn)行評(píng)估。該數(shù)據(jù)庫(kù)由Ellis提供,專門用于進(jìn)行CSI任務(wù)。數(shù)據(jù)庫(kù)中含有80組不同風(fēng)格的翻唱歌曲,其中有一組包含4首歌曲,兩組包含3首歌曲,其他均為2首,總計(jì)164首歌曲。該數(shù)據(jù)庫(kù)中的大多數(shù)翻唱歌曲,無(wú)論是節(jié)奏、配樂(lè)、人聲還是基調(diào)等多個(gè)方面都存在明顯的差別,對(duì)算法的魯棒性來(lái)說(shuō)是一個(gè)極大的考驗(yàn)。歌曲均為MP3文件,采樣率均為16 kHz。在提供數(shù)據(jù)庫(kù)的同時(shí),Ellis已經(jīng)將歌曲分為兩組,一組含有80首原始歌曲作為查詢,從另一組80首翻唱歌曲中返回相似度列表,共使用160首歌曲。本文數(shù)據(jù)庫(kù)采用和Ellis一樣的設(shè)置,實(shí)驗(yàn)環(huán)境采用MATLAB R2014a。 2.2評(píng)估度量選擇 為了有效地評(píng)估本文算法,選擇TOP-N和MAP度量作為評(píng)估標(biāo)準(zhǔn)。TOP-N是指將CSI的結(jié)果根據(jù)相似度從高到低排序后,返回的相似度列表中排名前N的歌曲中翻唱歌曲的個(gè)數(shù)。MAP度量是一種MIR領(lǐng)域的常規(guī)度量方法,并經(jīng)常用于翻唱識(shí)別任務(wù)[1]。通過(guò)式(12)可得到MAP[12]。 (12) 式中Q代表識(shí)別過(guò)程中作為查詢的歌曲數(shù)目,本文中Q=80;AveP(q)為q歌曲作查詢時(shí)的平均準(zhǔn)確率 (13) 式中:r為相似度列表中的名次;Cq為查詢歌曲q的翻唱版本數(shù)目,本實(shí)驗(yàn)中Cq=1;N為識(shí)別結(jié)束后返回的歌曲數(shù)目,本文中N=80;Iq(r)代表當(dāng)相似度列表在名次r處為查詢歌曲q的翻唱版本時(shí),取值為1,否則取0;Pq(r)為在名次r處的精度,r=1,2,…,80。 (14) 2.3實(shí)驗(yàn)結(jié)果與分析 在同樣的條件下,將本文算法在CSI中的結(jié)果與互相關(guān)算法[4]、DTW算法[15]及Qmax算法[9]的結(jié)果進(jìn)行了比較。其中Qmax算法為翻唱歌曲識(shí)別領(lǐng)域識(shí)別準(zhǔn)確率最高的算法之一。DTW算法分別采用了Sakoe-Chiba約束和Itakura平行四邊形約束兩種不同約束條件。對(duì)于Dmax和Qmax兩種算法,本文都對(duì)罰分項(xiàng)的參數(shù)選擇進(jìn)行了大量的實(shí)驗(yàn),找到最適合本數(shù)據(jù)庫(kù)的罰分參數(shù),使得兩種算法分別獲得各自的最優(yōu)結(jié)果。其中Dmax的最優(yōu)罰分參數(shù)為γo=1,γe=1.5,最終CSI結(jié)果如表1所示。 表1 不同匹配算法的翻唱歌曲識(shí)別結(jié)果 從實(shí)驗(yàn)結(jié)果可以看出,與互相關(guān)算法、DTW算法這些全局匹配算法相比,局部匹配算法Qmax和Dmax都獲得了更高的識(shí)別準(zhǔn)確率,證明了在CSI任務(wù)中使用局部匹配算法比使用全局匹配算法更加具有優(yōu)勢(shì)。與Qmax算法相比,Dmax算法獲得了更高的識(shí)別準(zhǔn)確率,TOP-1提高了5%,TOP-3提高了2.5%,MAP提高了3.2%。 Dmax算法與Qmax算法相比,采用了不同的步長(zhǎng)條件。Qmax算法所采用的步長(zhǎng)條件,雖然能解決在序列比對(duì)過(guò)程中最優(yōu)局部匹配路徑可能會(huì)產(chǎn)生病態(tài)彎曲的問(wèn)題,但是可能會(huì)錯(cuò)過(guò)部分匹配點(diǎn),同時(shí)由于該步長(zhǎng)條件的局部約束邊界斜率較窄,減小了Qmax算法對(duì)特征長(zhǎng)度差異的適應(yīng)范圍,從而減小了最終匹配分?jǐn)?shù)。所謂病態(tài)彎曲,是指在最優(yōu)局部匹配路徑上,存在一條序列中的某一點(diǎn)與另一條序列中的眾多相鄰點(diǎn)匹配的現(xiàn)象,在打分矩陣示意圖中表現(xiàn)為最優(yōu)局部匹配路徑某一段為橫線或豎線的現(xiàn)象。與Qmax算法相比,Dmax使用的步長(zhǎng)條件,既能有效地防止病態(tài)彎曲的產(chǎn)生,又能盡可能少地錯(cuò)過(guò)CRP中的匹配點(diǎn),且由于Dmax算法步長(zhǎng)條件的局部約束斜率寬于Dmax算法步長(zhǎng)條件的局部約束斜率,擴(kuò)大了Dmax對(duì)特征長(zhǎng)度差異的適應(yīng)范圍,從而提高了最終的匹配分?jǐn)?shù),造成了在CSI任務(wù)中使用Dmax算法比使用Qmax算法能獲得更高的識(shí)別準(zhǔn)確率。 圖4示出了使用Dmax算法時(shí)能夠正確識(shí)別、而在使用Qmax算法時(shí)未能正確識(shí)別的翻唱歌曲打分矩陣示意圖,并給出了使用步長(zhǎng)條件pl+1-pl∈{[1,1],[0,1],[1,0]}時(shí)的打分矩陣示意圖。其中圖4(a)為使用步長(zhǎng)條件pl+1-pl∈{[1,1],[0,1],[1,0]}時(shí)的打分矩陣示意圖,圖4(b)為Dmax的打分矩陣示意圖,圖4(c)為Qmax的打分矩陣示意圖,三者參數(shù)均為r0=1,re=1.5,且3幅圖均以Tina Turner的《Addicted to Love》作為橫軸,Robert Palmer的《Addicted to Love》作為縱軸。這一對(duì)翻唱歌曲,雖然節(jié)奏相似,但存在一定的變調(diào)現(xiàn)象,并且在人聲上有著極大的不同,Tina版為女聲,Robert版為男聲,并因?yàn)門ina版為演唱會(huì)版,存在一定的背景雜音。圖中的黑線為局部最優(yōu)匹配路徑。從圖4(a)中可以發(fā)現(xiàn),它的局部最優(yōu)匹配路徑上有一段明顯的病態(tài)彎曲,而在Qmax和Dmax的最優(yōu)局部匹配路徑上都沒(méi)有這種現(xiàn)象發(fā)生。但是,在使用Qmax時(shí),這兩首歌曲的最終局部匹配分?jǐn)?shù)僅為79.5,未能正確識(shí)別,而在使用Dmax時(shí),最終匹配分?jǐn)?shù)為492,明顯高于使用Qmax時(shí)所得到的分?jǐn)?shù),并且正確識(shí)別。從圖4(b)中可以觀察到,使用Dmax算法時(shí)兩首翻唱歌曲的打分矩陣有一個(gè)明顯的相似片段,而在圖4(c)中卻沒(méi)有。實(shí)驗(yàn)結(jié)果表明,與Qmax算法相比,Dmax算法對(duì)可能存在于翻唱版本之間的差異具有更強(qiáng)的魯棒性。 圖4 使用3種不同步長(zhǎng)條件時(shí)的打分矩陣 3結(jié)束語(yǔ) 本文基于Qmax局部序列匹配算法,提出了一種該算法的變種:Dmax算法。與Qmax算法相比,Dmax采用了不同的步長(zhǎng)條件,使得算法既能防止病態(tài)彎曲的產(chǎn)生又能提高最終匹配分?jǐn)?shù)?;凇癱overs80”翻唱歌曲曲庫(kù)的實(shí)驗(yàn)結(jié)果表明,Dmax在翻唱歌曲檢索任務(wù)中取得了比Qmax算法、DTW算法和互相關(guān)算法更高的識(shí)別準(zhǔn)確率。但由于Dmax算法采用了CRP和遞歸量化分析,造成了算法運(yùn)行速度較慢。在之后的研究中,我們將尋找方法來(lái)提高算法的運(yùn)行速度,并繼續(xù)對(duì)算法進(jìn)行改進(jìn),進(jìn)一步提高算法在CSI任務(wù)中的準(zhǔn)確率。 參考文獻(xiàn): [1]SERRA J,GOMEZ E,HERRERA P.Audio Cover Song Identification and Similarity:Background,Approaches,Evaluation,and Beyond[M].Berlin Heidelberg:Springer,2010. [2]肖川,李偉,殷玥,等.多版本音樂(lè)識(shí)別技術(shù)研究綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(8):1841-1846. [3]FUJISHIMA T.Realtime chord recognition of musical sound:A system using common lisp music[C]//Proceedings of the 1999 International Computer Music Conference.Beijing,China:ICMA,1999:464-467. [4]ELLIS D P W,POLINER G E.Identifying ′cover songs′ with chroma features and dynamic programming beat tracking[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing 2007.Honolulu,Hawaii:IEEE,2007:1429-1432. [5]GOMEZ E.Tonal description of music audio signals[D].Barcelona:Universitat Pompeu Fabra,2006. [6]張秀,李念祖,李偉.Chroma特征的魯棒性驗(yàn)證[J].計(jì)算機(jī)科學(xué),2014,41(z1):24-28. [7]GOMEZ E,HERRERA P.The song remains the same:identifying versions of the same piece using tonal descriptors[C]//Proceeding of 7th International Conference on Music Information Retrieval.Victoria,Canada:ISMIR,2006:180-185. [8]SERRA J,GOMEZ E,HERRERA P,etal.Chroma binary similarity and local alignment applied to cover song identification[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(6):1138-1151. [9]SERRA J,SERRA X,ANDRZEJAK R G.Cross recurrence quantification for cover song identification[J].New Journal of Physics,2009,11(9):093017. [10]DEGANI A,DALAI M,LEONARDI R,etal.A heuristic for distance fusion in cover song identification[C]//Proceedings of 14th International Workshop on Image Analysis for Multimedia Interactive Services.Paris:IEEE,2013:1-4. [11]ELLIS D P W.The ‘covers80’ cover song data set[EB/OL].[2015-06-01].http://labrosa.ee.columbia.edu/projects/coversongs/covers80/. [12]XIAO Chuan.Cover song identification using an enhanced chroma over a binary classifier based similarity measurement framework[C]//Proceedings of 2012 International Con-ference on Systems and Informatics.Yantai:IEEE,2012:2170-2176. [13]ELLIS D P W.Beat tracking by dynamic programming[J].Journal of New Music Research,2007,36(1):51-60. [14]王峰.美爾音級(jí)輪廓特征在音樂(lè)和弦識(shí)別算法中的應(yīng)用研究[D].太原:太原理工大學(xué),2010. [15]MULLER M.Information Retrieval for Music and Motion[M].Berlin Heidelberg:Springer,2007. Cover Song Identification Based on Cross Recurrence Plot and Local Alignment YANG Fan,CHEN Ning (School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China) Abstract:In this paper,a new local alignment algorithm based on Qmax is proposed to identify the cover versions.By changing the step size condition,the proposed algorithm can prevent the generating of pathological warping and improve the final score of local alignment.To verify the effectiveness of the proposed algorithm in cover song identification,the beat-synchronous pitch class profile (PCP) feature is taken as test object and the optimal transposition index (OTI) is used to achieve the key invariance.According to the extracted features,the cross recurrence plot (CRP) is constructed and the similarity is computed.It is shown from the experimental results that the proposed algorithm can achieve higher identification accuracy than the traditional alignment algorithms,e.g.,dynamic time warping (DTW),cross-correlation and Qmax. Key words:cover song identification; cross recurrence plot (CRP); Qmax; local alignment 收稿日期:2015-06-09 基金項(xiàng)目:國(guó)家自然科學(xué)基金(61271349) 作者簡(jiǎn)介:楊帆(1991-),男,黑龍江人,碩士生,主要研究方向?yàn)橐魳?lè)信息檢索。E-mail:yang8910fan@163.com 通信聯(lián)系人:陳寧,E-mail:chenning_750210@163.com 文章編號(hào):1006-3080(2016)02-0247-07 DOI:10.14135/j.cnki.1006-3080.2016.02.015 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A