亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合改進(jìn)歐幾里得算法和動態(tài)規(guī)劃的音樂主旋律提取

2018-07-25 12:19:42張維維殷福亮

信號處理 2018年8期

張維維陳喆殷福亮

(1. 大連理工大學(xué)信息與通信工程學(xué)院，遼寧大連 116023；2. 大連民族大學(xué)信息與通信工程學(xué)院，遼寧大連 116605)

1 引言

主旋律提取(簡稱“旋律提取”)，是音樂信息檢索領(lǐng)域中一項重要研究課題，旨在從音樂片段中提取出被聽者識別的作為音樂“本質(zhì)”的單音高序列[1-2]。當(dāng)音樂中存在歌聲時，則將歌聲作為主旋律，否則將最顯著樂音成分作為主旋律。盡管音高和基頻分別是兩個不同的感知量和物理量，但在主旋律提取中，常把兩者等同對待，故主旋律音高估計也常被稱為“主旋律基頻估計”[3]。主旋律提取在哼唱檢索、翻唱識別、風(fēng)格分類、歌手識別等方面具有廣泛應(yīng)用[4-7]。

文獻(xiàn)[4]將現(xiàn)有的主旋律提取方法分為三類：基于顯著度的方法、基于源分離的方法和其他方法。多數(shù)方法都屬于基于顯著度的方法，該方法先根據(jù)某種顯著度策略得到每幀信號的多個音高估計，然后從顯著度譜峰直接跟蹤得到旋律輪廓，或者先把顯著度譜峰聚類形成連續(xù)音高輪廓并從中選取旋律軌跡，該類方法中最具代表性的方法包括Salamon等提出的旋律輪廓特征法[3]、Dressler等提出的幅度譜加權(quán)與諧波譜峰對評估法[8]以及聲學(xué)-語音模型法[9]?；谠捶蛛x的方法先增強混合音頻中的主旋律成分或者從音樂中分離出主旋律分量，然后再采用音高估計和軌跡跟蹤的方法提取主旋律，典型的該類方法包括：Tachibana等提出的基于樂音/打擊樂器音源分離(Harmonic/Percussion Source Separation，HPSS)模型的譜分解法[10]、Durrieu等提出的基于非負(fù)矩陣分解的譜分解方法[11]、Arora和Behera提出的兩級諧波聚類法[12]以及基于這三種方法的改進(jìn)方法[13-18]?；陲@著度和基于源分離以外的方法都被歸類為其他方法，包括：基于數(shù)據(jù)驅(qū)動的分類方法[19]、基于深度神經(jīng)網(wǎng)絡(luò)的方法[20]、基于序列貝葉斯模型的方法[21]以及基于認(rèn)知原理的方法[22]等。

在前期研究中，我們提出了基于改進(jìn)歐幾里得算法的主旋律提取方法[23]。該方法將歐幾里得算法擴展到浮點數(shù)域，根據(jù)各譜峰對頻率值，利用改進(jìn)歐幾里得算法，估計出旋律候選音高；然后，采用基于規(guī)則的策略，將時間和頻率均足夠接近的候選音高聚集到一起得到音高輪廓，根據(jù)音高輪廓的顯著度函數(shù)得到最終的主旋律音高序列。該方法在基頻丟失或有強低音伴奏的情況下具有較好的效果，但是由于音樂固有的非平穩(wěn)性，以及候選音高的數(shù)量有限，很難精確地描述音高輪廓的顯著度，導(dǎo)致旋律輪廓選擇不準(zhǔn)，且偶有同一音符范圍內(nèi)的估計值在不同音符之間切換的情況發(fā)生。

為了解決上述問題，本文提出了基于改進(jìn)歐幾里得算法和動態(tài)規(guī)劃相結(jié)合的旋律提取方法，先采用改進(jìn)歐幾里得算法估計出候選音高，然后利用動態(tài)規(guī)劃算法跟蹤主旋律輪廓。由于動態(tài)規(guī)劃中引入懲罰因子，減少了同一音符范圍內(nèi)估計值在不同音符間切換的情況，且動態(tài)規(guī)劃中基于每幀音高定義顯著度函數(shù)，克服了音高輪廓顯著度難以精確描述的弊端。

本文章節(jié)安排如下：第2部分詳細(xì)闡述提出的主旋律提取方法；第3部分提供實驗結(jié)果與分析；第4部分對本文提出的方法進(jìn)行總結(jié)。

2 主旋律提取方法

一般來說，每個音符都包括基頻和諧波分量。然而，由于強低音伴奏影響或某些特殊的歌唱技巧，會出現(xiàn)基頻丟失，在這種情況，直接跟蹤基頻的方法無法準(zhǔn)確地提取出主旋律。然而，音樂信號中還有豐富的諧波分量，且心理聲學(xué)研究表明，在基頻丟失的情況下，人耳仍能準(zhǔn)確地感知音高[24]。根據(jù)這一結(jié)論，本文方法先完成音樂音頻信號的正弦估計，然后采用改進(jìn)歐幾里得算法估計出每幀的候選音高，最后利用動態(tài)規(guī)劃算法跟蹤旋律軌跡，其框圖如圖1所示。

2.1 正弦估計

正弦估計的作用是估計出每幀信號中的正弦分量的幅度和頻率，這兩個參數(shù)估計的準(zhǔn)確率直接影響到后續(xù)處理結(jié)果，由于常Q變換(Constant-Q Transform，CQT)在較低頻率范圍內(nèi)具有較高的頻率分辨率能保證對低頻成分具有較高的區(qū)分度，而在較高頻率范圍內(nèi)具有較低的頻率分辨率，可減少高頻范圍內(nèi)偽峰的數(shù)量，故本文采用CQT完成音樂信號的譜分析。CQT的第k個分量定義為[25]：

(1)

圖1 主旋律提取方法框圖Fig.1 Block diagram of the proposed method for melody extraction

CQT進(jìn)行譜分析時，對于不同頻率段都具有相同的Q值，實現(xiàn)了頻譜多分辨率分析。然后，搜索CQT幅度譜的譜峰，并采用Abe等提出的瞬時頻率法[26]對譜峰頻率進(jìn)行校正。

假設(shè)信號x(t)的短時傅里葉變換表示為：X(ω,t)=a(ω,t)+jb(ω,t)，其中a(ω,t)和b(ω,t)分別是X(ω,t)的實部和虛部。則(ω,t)處的瞬時頻率可以表示為：

(2)

其中arg[·]表示取復(fù)函數(shù)的輻角。

則λ(ω,t)可以通過下式計算：

(3)

且瞬時頻率(λ0,t)處的幅度可通過下式計算：

(4)

2.2 候選音高估計

歐幾里得算法被廣泛用于計算兩個自然數(shù)的最大公約數(shù)，而感知音高可看作各次諧波的“最大公約數(shù)”(本文也稱其為“類最大公約數(shù)”)。為了根據(jù)諧波求感知音高，我們用改進(jìn)歐幾里得算法估計每幀的候選音高[23]。假設(shè)x和y是兩個浮點數(shù)，且0

(5)

其中[·]代表向最近的整數(shù)取整，|·|代表取絕對值運算。

(6)

如圖2所示，每個譜峰可以用兩個參數(shù)，即頻率pl,t和幅度ml,t，l=1,...,np，其中np是譜峰的數(shù)量。pi,t和pj,t(pi,t

(7)

其中mi,t和mj,t分別為第i和j個譜峰的幅度。

圖2 第t幀信號幅度譜Fig.2 Amplitude spectrum of the t-th frame

2.3 旋律軌跡跟蹤

在多音高估計階段，得到了每幀信號的多個音高候選值，按照音高的權(quán)重對音高候選進(jìn)行初步篩選，仍沒有考慮到相鄰幀的時序連續(xù)性。動態(tài)規(guī)劃能在代價函數(shù)中結(jié)合顯著性和連續(xù)性約束，并通過遞歸求解子問題的方法找到最佳路徑，故本文采用動態(tài)規(guī)劃算法實現(xiàn)旋律軌跡跟蹤，得到最終的主旋律音高序列估計。

選取權(quán)值最大的M個候選參與旋律軌跡跟蹤，由于并不能保證每個音高候選估計都來自于某音源幅度最大的兩個譜峰，故重新計算每個音高候選的顯著度值，本文采用如下的諧波幅度加權(quán)求和函數(shù)作為音高的顯著度值：

(8)

求出每幀各候選音高的顯著度值后對這些候選的顯著度值進(jìn)行歸一化運算：

(9)

旋律軌跡跟蹤中需要同時考慮到旋律的顯著性和連續(xù)性，故代價函數(shù)被定義為：

(10)

其中Nfrm是整個音頻的幀數(shù)，λ為音高轉(zhuǎn)移懲罰因子，d(ft,ft+1)是第t和t+1幀的音高差，單位是半音。式(10)中的第一項代表顯著性約束，而第二項代表時序連續(xù)性約束。

動態(tài)規(guī)劃的遞歸函數(shù)表示為：

λd(ft-1,k,ft, j)}

(11)

其中ft, j是第t幀的音高，ft-1,k是第t-1幀音高，d(ft-1,k,ft, j)是ft-1,k和ft, j之間的半音差，且t∈(1,Nfrm]。

D(t,ft, j)的初始條件為：

(12)

3 實驗結(jié)果與分析

為了評估提出方法的性能，我們采用三個主旋律提取測評數(shù)據(jù)庫進(jìn)行實驗，本節(jié)將詳細(xì)闡述測試數(shù)據(jù)庫、測試性能指標(biāo)、參數(shù)設(shè)置及實驗結(jié)果與分析。

3.1 測試數(shù)據(jù)庫與性能指標(biāo)

提出的方法采用ISMIR2004(文獻(xiàn)[23]中也稱其為ADC2004)、MIREX05 train和MIR-1K三個數(shù)據(jù)庫進(jìn)行性能測試。ISMIR2004由龐培法布拉大學(xué)的音樂技術(shù)組(Music Technology Group，MTG)提供，共20個音樂片段，包括MIDI、爵士、節(jié)奏布魯斯(R&B)、流行樂和歌劇五種類型，這些片段持續(xù)時間大約20 s，采樣率為44.1 kHz，標(biāo)記的旋律音高間隔為5.8 μs。

MIREX05 train由Graham Poliner和Dan Ellis收集，包含13個持續(xù)時間在24 s至39 s長的片段，采樣率為44.1 kHz，標(biāo)記的旋律音高間隔為10 μs。

MIR-1K包含1000個歌曲片段，這些片段從110首錄制的卡拉OK歌曲中截取，由19個業(yè)余歌手演唱，每個片段的持續(xù)時間在4 s至13 s范圍內(nèi)。整個數(shù)據(jù)庫中音樂的持續(xù)時間為133 min，旋律音高的標(biāo)記間隔也為10 μs。

各方法性能采用原始音高準(zhǔn)確率(Raw Pitch Accuracy，RPA)和原始音度準(zhǔn)確率(Raw Chroma Accuracy，RCA)兩項指標(biāo)進(jìn)行評估，這兩項指標(biāo)定義為[27]：

(13)

(14)

其中#TP是正確估計旋律音高的幀數(shù)，#TPC是忽略八度誤差后正確估計旋律音高的幀數(shù)，#VF是旋律總幀數(shù)，當(dāng)估計值落在標(biāo)注值半個半音范圍內(nèi)則認(rèn)為旋律音高被正確估計，否則認(rèn)為估計錯誤。由式(13)和(14)可見，RPA和RCA的定義類似，只是RCA忽略了八度錯誤。

3.2 參數(shù)設(shè)置

根據(jù)經(jīng)驗，主旋律音高的頻率范圍設(shè)為[100,1200]Hz，旋律音高序列的估計值間隔與各數(shù)據(jù)庫相同，即ISMIR2004的旋律音高間隔為5.8 μs，而MIREX05 train和MIR-1K的間隔均為10 μs。CQT借用Sch?rkhuber等提供的CQT工具箱實現(xiàn)[28]，CQT譜分析中每八度頻率點數(shù)量B和每幀的候選音高數(shù)量M的設(shè)置及其對性能的影響在MIREX05 train數(shù)據(jù)庫上進(jìn)行測試，并根據(jù)在該數(shù)據(jù)庫的性能結(jié)果設(shè)定，同樣的參數(shù)用于ISMIR2004和MIR-1K兩個數(shù)據(jù)庫的主旋律提取。

提出的方法中有一些重要的參數(shù)需要設(shè)置，且參數(shù)設(shè)置對系統(tǒng)性能起到重要的作用，下面闡述這些參數(shù)的選擇。改進(jìn)歐幾里得算法中閾值?的取值在參考文獻(xiàn)[23]中有詳細(xì)討論，即取之為?=0.15。還需設(shè)定每幀音頻中候選音高數(shù)量M，每八度頻點數(shù)量B，式(8)中的Nh和α，以及動態(tài)規(guī)劃中懲罰因子λ。通常，每幀的候選音高數(shù)量M在3～10范圍內(nèi)，每八度頻點數(shù)量B取值在36～84范圍內(nèi)且為12的整數(shù)倍，式(8)中的Nh取值范圍在5～10之間，α取值在0.80～1之間，λ在0.01～0.20范圍內(nèi)。

我們采用逐個參數(shù)優(yōu)化的方法得到合理的參數(shù)設(shè)置，首先設(shè)定B=36，Nh=5，α=0.85，λ=0.05，測試每幀候選音高數(shù)量M對MIREX05 train數(shù)據(jù)庫上主旋律提取性能RPA和RCA的影響，結(jié)果如表1所示。由該表可見，候選音高數(shù)量M=5時，取得最高的RPA和RCA。當(dāng)M過大的時候，會引入較多的錯誤估計，給濾除錯誤估計造成困難，而如果M過小，部分準(zhǔn)確值又不在跟蹤范圍內(nèi)，故后續(xù)實驗中均將M設(shè)為5。

表1 每幀候選音高數(shù)量(M)對性能的影響

確定了每幀候選音高數(shù)量后，測試了CQT譜分析中每八度頻率點數(shù)量B對MIREX05train數(shù)據(jù)庫上主旋律提取性能RPA和RCA的影響，實驗結(jié)果如表2所示。由表2可見，隨著B的逐漸增大，RPA與RCA均先增大后減小。由于CQT計算量正比于頻率點數(shù)量[28]，且B=60和B=72時性能差異較小，故在后續(xù)實驗中均設(shè)定B=60。

表2 CQT譜分析中每八度頻點數(shù)量(B)對性能的影響

由于Nh和α都在式(8)中，故兩者可同時優(yōu)化，得到結(jié)果如表3所示。由該表可見，RPA和RCA均隨著Nh和α的取值不同而變化，且變化范圍較小，說明該方法性能對這兩個參數(shù)不敏感。鑒于在Nh=7，α=0.85時，兩者均取得了最大值，后續(xù)實驗中均設(shè)定Nh=7，α=0.85。

利用以上實驗取得最佳性能的參數(shù)，在λ不同取值情況下，我們測試了提出方法的性能，得到結(jié)果如表4所示。由該表可見，λ=0.05時取得了最好的效果，故后續(xù)實驗中仍保留此設(shè)置。

表3 Nh和α對性能的影響

表4 λ對性能的影響

3.3 各數(shù)據(jù)庫上的評估結(jié)果

根據(jù)3.2節(jié)中的參數(shù)設(shè)置，借助前述的數(shù)據(jù)庫對該方法的性能進(jìn)行了測試，圖3給出該方法在ISMIR2004數(shù)據(jù)庫中“daisy3.wav”片段上的處理效果。圖3(a)是該段音樂的CQT譜圖；該段音樂按照式(7)作為音高權(quán)重，每幀取權(quán)重排序前5的候選音高構(gòu)成該幀的候選音高集，整個曲目候選音高集的顯著度譜圖如圖3(b)所示；圖3(c)是動態(tài)規(guī)劃后輸出的主旋律音高序列，由該圖可見，該方法在這段音頻上的總體效果較好，僅在1s附近出現(xiàn)了八度錯誤。

圖3 某段音樂的主旋律提取結(jié)果Fig.3 The main melody extraction result for one excerpt

3.4 各數(shù)據(jù)庫上的評估結(jié)果

本文提出的方法(MEA+DP)和前期研究提出的改進(jìn)歐幾里得方法(MEA)[23]在三個數(shù)據(jù)庫上的性能比較如表5所示。由表5可見，在三個數(shù)據(jù)庫上，MEA+DP均取得了較MEA更高的RPA和RCA，以及更小的八度誤差。

表5 三個數(shù)據(jù)庫上的性能比較

此外，實驗中還比較了本方法、Hsu等[17]提出的歸一化子諧波求和(NSHS)、樂器分量刪除與動態(tài)規(guī)劃相結(jié)合(IPD+DP)、樂器分量刪除與歸一化子諧波求和(IPD+NSHS)以及MEA等方法在ISMIR2004和MIR-1K兩個數(shù)據(jù)庫上的原始音高準(zhǔn)確率(RPA)，除了MEA和MEA+DP外，其他方法的RPA均由相關(guān)文獻(xiàn)[17]提供，各方法在這兩個數(shù)據(jù)庫的結(jié)果詳見圖4。由圖4可見，本文提出的方法在這兩個數(shù)據(jù)庫上均取得了最高的原始音高準(zhǔn)確率。

圖4 MIR-1K和ISMIR2004上的性能比較Fig.4 Performance comparison on MIR-1K and ISMIR2004

4 結(jié)論

本文提出了基于改進(jìn)歐幾里得算法和動態(tài)規(guī)劃的主旋律提取方法。該方法先利用改進(jìn)歐幾里得算法估計音樂中的幀級候選音高，再用動態(tài)規(guī)劃算法建模主旋律的顯著性和時序連續(xù)性，以跟蹤主旋律音高序列。實驗結(jié)果表明，本文提出的方法在三個測試數(shù)據(jù)庫上的性能均優(yōu)于前期研究提出的基于改進(jìn)歐幾里得算法的主旋律提取方法，與其他的參考方法相比，本方法也取得了較高的原始音高準(zhǔn)確率。