石浩東,謝 偉,徐天保,祝享庭,李 琪
(大連民族大學(xué)信息與通信工程學(xué)院,遼寧 大連 116600)
我國各民族都有自己特有的民族古樂器,如藏族的馬頭琴、維吾爾族的扎木聶、哈薩克族的冬不拉、朝鮮族的長鼓等等。各民族的古樂器在幾千年的歷史長河中不竭地發(fā)展和演變,譜寫出九曲黃河水,曲曲是同鄉(xiāng)的民族贊歌,這些都是中華兒女智慧的象征。各族同胞的古樂器不僅僅是物質(zhì)文化遺產(chǎn),更是寄托了先人無聲教導(dǎo)的精神遺產(chǎn)。是后人們應(yīng)該進(jìn)行保護(hù),創(chuàng)新,并不斷發(fā)展發(fā)揚(yáng)光大的。
傳統(tǒng)的樂器識別分類方法采用的是樹形分類方法,這種分類方法的過程較為繁瑣,且識別的準(zhǔn)確率不是很高。而采用模式識別的分類方法來對民族樂器進(jìn)行識別,能夠有效克服傳統(tǒng)屬性分類方法的錯誤累計(jì)缺陷。王飛和于鳳芹基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)與聽覺譜圖進(jìn)行樂器識別[1];王芳提取梅爾多頻系數(shù),并基于深度置信網(wǎng)絡(luò)設(shè)計(jì)樂器識別算法[2];Etienne等應(yīng)用調(diào)制功率譜識別西洋樂器[3]。
音樂特征可以廣泛地被應(yīng)用,來分析識別和提取表征冗余音樂的本質(zhì)屬性,因此在民族樂器的識別分類中提取音樂特征是非常重要的。圖1為音樂特征提取流程圖。
圖1 音樂特征提取流程圖
2.2.1 短時能量
短時能量表征的是在時域中音樂信號幅度的變化情況,幅度將顯著隨時間變化,將有音音段與無音音段形成鮮明的對比,故該特征常被用于判斷音頻的起始、過度和結(jié)束。
.
(1)
2.2.2 短時平均過零率
短時過零表示一幀音頻數(shù)據(jù)信號輸出波形穿過橫軸(零電平)的次數(shù)。過零對于連續(xù)的音樂信號來說,即時域波形通過時間軸;而對于離散信號,相鄰的取樣值的變化符號稱為過零。過零率就是樣本改變符號的次數(shù)。
.
(2)
(3)
2.2.3 梅爾倒譜系數(shù)
.
(4)
MFCC系數(shù)的個數(shù)通常取12~16,文中介紹選取的為12階倒譜系數(shù)。
2.2.4 MFCC差分系數(shù)
標(biāo)準(zhǔn)倒譜MFCC參數(shù)只能用來反映音頻參數(shù)的靜態(tài)特性,通過這些靜態(tài)特征的差分譜,可以用來識別和描述音樂的一些動態(tài)參數(shù)特性。實(shí)驗(yàn)研究的結(jié)果表明:將這些動態(tài)特征與靜態(tài)特征結(jié)合起來,才能有效地提高識別系統(tǒng)的效率與辨識性能。以下公式可用于計(jì)算差分參數(shù):
(5)
式中,dt為第t個一階差分;Ct為第t個倒譜系數(shù);Q為倒譜系數(shù)的階數(shù);K為一階導(dǎo)數(shù)的時間差,可取1或2。將一階結(jié)果再代入,即可得到二階差分參數(shù)。
為了將幀連續(xù)起來,一般求取當(dāng)前幀與前后各一幀的13個特征的差值(12個倒譜特征加1個能量特征)。
合并MFCC參數(shù)和一、二階差分MFCC參數(shù),去除首尾兩幀,組成一個新的矢量,共36維,作為一幀音樂信號參數(shù)。
學(xué)習(xí)矢量量化(Learning Vector Quantization,LVQ)系統(tǒng)規(guī)劃。圖2為本文使用的樂器識別分類的系統(tǒng)結(jié)構(gòu)圖。
圖2 樂器識別分類系統(tǒng)結(jié)構(gòu)圖
學(xué)習(xí)矢量量化神經(jīng)網(wǎng)絡(luò)由于具備神經(jīng)網(wǎng)絡(luò)構(gòu)造簡單、輸入向量不需要根據(jù)需求進(jìn)行歸一化、正交化等長處,因而在模式識別和優(yōu)化領(lǐng)域被廣泛應(yīng)用。
輸入層36個節(jié)點(diǎn),銜接36維的單幀音樂信號參數(shù),隱含層神經(jīng)元的數(shù)目設(shè)置為10,輸出層5個節(jié)點(diǎn)對應(yīng)五種民族樂器。
實(shí)驗(yàn)項(xiàng)目主要采用5種民族樂器——箜篌、楊琴、竹笛、二胡、葫蘆絲。每種樂器由1000個3s的樂器獨(dú)奏樣本組成,從樣本中隨機(jī)抽取3500個樣本作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練集,剩余的1500個樣本作為神經(jīng)網(wǎng)絡(luò)測試集。
訓(xùn)練結(jié)果在圖3中顯示,實(shí)驗(yàn)結(jié)果在表1中顯示。
圖3 訓(xùn)練結(jié)果混淆矩陣
表1 實(shí)驗(yàn)記錄表
從表中可以看出,本系統(tǒng)對揚(yáng)琴的識別率最高,達(dá)到97.5%,對葫蘆絲的識別率最低,只有54.5%,五種樂器的平均識別率為74.3%。
出現(xiàn)誤差的原因可能有以下幾種:
1) 選取的音樂文件還不夠多;
2) 樂器的特征規(guī)律把握還不夠準(zhǔn)確;
2) 識別算法還不夠強(qiáng)。
隨著西方現(xiàn)代樂器識別分類的逐步完善,我國的傳統(tǒng)民族樂器識別方法的研究迫在眉睫。一方面隨著年輕人的加入掀開了民族傳統(tǒng)文化熱潮,民族音樂的數(shù)字化也在我國掀起了一股小浪潮。另一方面我們特有的傳統(tǒng)民族樂器也因老人將逝、新人怕苦面臨著失傳,而如何才能精準(zhǔn)迅速地檢索出傳統(tǒng)民樂中的發(fā)聲樂器,己成為傳統(tǒng)民族音樂信息檢索領(lǐng)域我們急需解決的一個技術(shù)問題。民族樂器識別可以說不僅是對音樂信息檢索的一個重要的應(yīng)用,還對于保護(hù)和傳承我國少數(shù)民族的傳統(tǒng)、保護(hù)少數(shù)民族的文化遺產(chǎn)也具有重要意義。
本文提取時域、頻域的音樂特征量,應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行民族樂器識別,效果良好,表明本文方法對于識別民族樂器具有一定的參考價值。
由于音樂樣本的不足,特征量提取還不夠準(zhǔn)確,識別方法還有待不斷改善。