劉紅梅
(阿克蘇職業(yè)技術學院 人文藝術學院,新疆 阿克蘇 843000)
隨著人們生活水平不斷的提高,對音樂需求更加廣泛,同時隨著聲樂技術不斷的成熟,出現(xiàn)了許多音曲,樂曲節(jié)拍具有多樣性,如何對樂曲節(jié)拍進行準確識別,是當前音樂研究領域中的一個重要課題[1-3]。
針對樂曲節(jié)拍識別問題,許多學者和研究機構進行了廣泛、深入的研究,提出許多有效的樂曲節(jié)拍識別方法[4-6]。樂曲節(jié)拍識別與語音識別具有一定的相似性,識別原理大致相同,如基于卷積神經(jīng)網(wǎng)絡的樂曲節(jié)拍識別方法等[7-9]。在實際應用中,這些樂曲節(jié)拍識別方法還存在許多不足,如樂曲節(jié)拍識別的精度低,經(jīng)常出現(xiàn)誤識現(xiàn)象,拒識率相當高,難以滿足樂曲節(jié)拍識別的實際要求[10-12]。
音頻指紋是一種重要的語音信號特征,其可以描述樂曲節(jié)拍類型,為了提高樂曲節(jié)拍識別精度,克服當前樂曲節(jié)拍識別過程中存在的不足,提出基于音頻指紋技術的樂曲節(jié)拍識別系統(tǒng),并與當前其它樂曲節(jié)拍識別系統(tǒng)進行了對比測試。結(jié)果表明,本文系統(tǒng)得到了理想的樂曲節(jié)拍識別結(jié)果,樂曲節(jié)拍誤識率低于對比系統(tǒng),驗證了本文系統(tǒng)的優(yōu)越性。
一個完整的樂曲節(jié)拍識別系統(tǒng)包括硬件部分和軟件部分,其中硬件部分是樂曲節(jié)拍識別系統(tǒng)的基礎,而軟件部分是樂曲節(jié)拍識別系統(tǒng)的靈魂,兩部分協(xié)調(diào)工作完成樂曲節(jié)拍識別。
基于音頻指紋技術的樂曲節(jié)拍識別系統(tǒng)硬件結(jié)構如圖1所示。
圖1 樂曲節(jié)拍識別系統(tǒng)的硬件結(jié)構
主要包括:樂曲節(jié)拍信號采集模塊、樂曲節(jié)拍信號的存儲和傳輸模塊,樂曲節(jié)拍識別模塊。樂曲節(jié)拍信號通過傳感器進行采集,通過TMS320VC5402 微處理器對樂曲節(jié)拍信號進行放大處理,將放大處理后的樂曲節(jié)拍信號輸入到存儲器保存起來,同時將樂曲節(jié)拍信號數(shù)據(jù)根據(jù)計算機能夠識別的形式存儲到樂曲數(shù)據(jù)庫中,其中樂曲節(jié)拍識別模塊是最為關鍵的部分,其直接影響樂曲節(jié)拍識別結(jié)果的好壞,本文采用音頻指紋算法的樂曲節(jié)拍識別技術。
由于樂曲節(jié)拍信號具有一定的特殊性,為了防止樂曲節(jié)拍信號被放大處理產(chǎn)生變形現(xiàn)象,處理器的電路采用二級阻容耦合模式。一級電路為射極跟隨電路,其主要用于去除樂曲節(jié)拍信號中的噪聲,保證輸入與輸出信號的相位不發(fā)生變化,將未失真信號輸入到下一級電路進行處理;二級電路為共射極放大電路,主要用于對樂曲節(jié)拍信號進行放大處理,同時使放大后的樂曲節(jié)拍信號不發(fā)生變形。
在進行樂曲節(jié)拍識別時,首先要建立樂曲節(jié)拍識別的指紋數(shù)據(jù)庫,對于待識別的樂曲節(jié)拍信號,計算其與數(shù)據(jù)庫中指紋的匹配度,根據(jù)匹配度得到樂曲節(jié)拍識別結(jié)果[12]。
1.2.1 提取樂曲節(jié)拍信號的指紋
對于待識別的樂曲節(jié)拍信號,通過以下步驟提取其指紋。
Step1:采集待識別的樂曲節(jié)拍信號,對原始樂曲節(jié)拍信號進行一定的預處理,去掉無用的信號,保留有用的樂曲節(jié)拍信號。
Step2:對預處理后的樂曲節(jié)拍信號進行分幀處理,第i幀音頻信號為g(i),所有幀的樂曲節(jié)拍信號采樣周期和幀的長度是一致的。
Step3:對分幀的樂曲節(jié)拍信號進行復倒譜轉(zhuǎn)換,第2i-1,2i,2i+1幀樂曲節(jié)拍信號之間的關系可以描述為式(1)。
(1)
其中,N表示幀數(shù)量。
Step4:提取樂曲節(jié)拍的指紋系數(shù)p*(i),具體計算為式(2)。
(2)
Step4:將樂曲節(jié)拍的指紋系數(shù)與閾值t進行比較,根據(jù)比較結(jié)果得到一個由1和0組成的指紋序列如式(3)。
(3)
1.2.2 基于指紋的樂曲節(jié)拍識別
數(shù)據(jù)庫中的樂曲節(jié)拍指紋集合為H={H1,H2,…,Hn},對于待識別的樂曲節(jié)拍,其指紋序列為P={P1,P2,…,Pn},為了找到一種映射方式可以對p進行估計,從而實現(xiàn)并置運算,最終得到式(4)。
p=ω1+ω2+…+ωn
(4)
其中,ωi表示樂曲節(jié)拍信號的子串[13]。
為了指紋數(shù)據(jù)庫構建立q-grams子串,一個串長度為n串包括n-q+1個q-grams子串。如當q=2時,存在5個q-grams子串,分別為poss、ossi、ssib、sibl、ible,把它們的值作為待識別樂曲節(jié)拍的指紋索引值,計算樂曲節(jié)拍指紋子串匹配的數(shù)量,根據(jù)打分方式得到數(shù)據(jù)庫的樂曲節(jié)拍序列和待識別樂曲節(jié)拍的匹配分值,選擇分值最高序列作為初始列,具體打分方式為式(5)。
(5)
其中,p(i)和h(i)為目標序列和源序列的索引值。
為了獲得樂曲節(jié)拍指紋最優(yōu)匹配結(jié)果,需要找到樂曲節(jié)拍指紋最長的公用子串,根據(jù)最長公用子串的軌跡,就可以找到最長子串在樂曲節(jié)拍源序列中的位置。
綜合上述分析可知,基于音頻指紋的樂曲節(jié)拍識別系統(tǒng)的工作流程如圖2所示。
圖2 基于音頻指紋的樂曲節(jié)拍識別流程
為測試基于音頻指紋的樂曲節(jié)拍識別系統(tǒng)的性能,使用采樣頻率是23 kHz、分辨率是17 bit、8 s長的MP3音樂文件實施測試,此音樂文件中有多種某類型樂曲。樂曲節(jié)拍原始指紋和待識別的樂曲節(jié)拍音頻指紋分別為H(i)、P(i),具體計算如式(6)、式(7)。
(6)
(7)
首先對樂曲節(jié)拍識別系統(tǒng)的魯棒性進行測試,當前樂曲節(jié)拍受到外界環(huán)境影響的主要因素包括:重采樣、低通濾波、重量化等,對于各種影響因素,采用信噪比和互相關系數(shù)評價樂曲節(jié)拍識別系統(tǒng)的性能,結(jié)果如圖3和圖4所示。
圖3 本文系統(tǒng)的采集信號信噪比
圖4 本文系統(tǒng)的提取指紋相關系數(shù)
對圖3和圖4的結(jié)果進行分析可以知道,本文系統(tǒng)的信噪比高,而且原始指紋信息和提取指紋信息之間的互相關系數(shù)高,它們兩者之間的相似度比較高,這表明,外界因素對本文樂曲節(jié)拍識別系統(tǒng)的干擾比較小,具備較顯著的魯棒性,可以獲得理想的樂曲節(jié)拍信號。
測試本文系統(tǒng)的樂曲節(jié)拍識別精度,識別精度的計算如式(8)。
(8)
選擇6種樂曲作為測試對象,它們分別為:交響曲、協(xié)奏曲、圓舞曲、進行曲、浪漫曲、奏鳴曲,為了使數(shù)字更為直觀清晰,對6種樂曲的詳細情況分別以圖和表形式進行描述,測試對象分布如圖5所示。
圖5 6種樂曲的數(shù)量詳細分布
本文系統(tǒng)對樂曲節(jié)拍中有效音頻信號識別錯誤數(shù)如表1所示。
表1 本文系統(tǒng)的樂曲節(jié)拍識別錯誤數(shù)
分析表1可知,本文系統(tǒng)僅對奏鳴曲的節(jié)拍識別存在錯誤,其它5種樂曲節(jié)拍識別結(jié)果不存在錯誤,證明了本文系統(tǒng)的有效性。
本文系統(tǒng)對樂曲節(jié)拍識別精度計算結(jié)果如圖6所示。
圖6 本文系統(tǒng)的樂曲節(jié)拍識別精度
從圖6可以發(fā)現(xiàn),本文系統(tǒng)樂曲節(jié)拍識別精度很高,完全可以滿足樂曲節(jié)拍識別的實際應用要求。
對于采樣、低通濾波、重量化環(huán)境,統(tǒng)計本文系統(tǒng)的樂曲節(jié)拍識別精度,結(jié)果如圖7所示。
圖7 不同因素影響下的樂曲節(jié)拍識別精度
從圖7可以發(fā)現(xiàn),在重采樣、低通濾波、重量化條件下,本文系統(tǒng)的樂曲節(jié)拍識別精度仍然很高,獲得了理想的樂曲節(jié)拍識別結(jié)果。
為了分析本文系統(tǒng)的樂曲節(jié)拍指紋提取效果,計算樂曲節(jié)拍指紋漏識率(ERROR),如式(9)。
ERROR=(δ-γ)×100%
(9)
式中,γ和δ分別表示提取和實際指紋數(shù)量。
樂曲節(jié)拍的實際指紋數(shù)量變化曲線如圖8所示。
圖8 樂曲節(jié)拍的指紋實際數(shù)量
計算本文系統(tǒng)的樂曲節(jié)拍指紋漏識率,具體如圖9所示。
圖9 本文系統(tǒng)的樂曲節(jié)拍指紋漏識率
對圖9樂曲節(jié)拍的指紋漏識率進行分析可以發(fā)現(xiàn),本文系統(tǒng)的樂曲節(jié)拍的指紋漏識率極低,甚至可以忽略不計,可以有效提取樂曲節(jié)拍的指紋。
樂曲節(jié)拍識別是當前研究的熱點,其識別結(jié)果可以為樂曲智能創(chuàng)作提供有價值的參考信息,為了改善樂曲節(jié)拍識別效果,提出基于音頻指紋技術的樂曲節(jié)拍識別系統(tǒng),并通過仿真實驗可知:無論有噪無噪環(huán)境,本文系統(tǒng)都可以獲得較高精度的樂曲節(jié)拍識別結(jié)果,對噪聲具有一定的魯棒性,樂曲節(jié)拍識別漏識率低,解決了當前樂曲節(jié)拍識別過程中存在的問題,具有較高的實際應用價值。