張 琳,王 珊,秦曉瑜,陳海霞,王連明
(1.東北師范大學(xué)應(yīng)用電子技術(shù)研究所,吉林 長(zhǎng)春 130024;2.通化師范學(xué)院物理系,吉林 通化 134000)
樂(lè)器識(shí)別作為聲源識(shí)別的一個(gè)重要分類(lèi),是深入研究音頻檢索的基礎(chǔ).傳統(tǒng)的樂(lè)器識(shí)別大多是以MFCC和LPCC等作為樂(lè)器的聲學(xué)特征[1],采用高斯混合模型、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行識(shí)別.文獻(xiàn)[2]研究了Mel頻率、delta倒譜系數(shù)和線(xiàn)性預(yù)測(cè)倒譜系數(shù)等聲學(xué)特征,然后用這些特征對(duì)16種西方管弦樂(lè)器進(jìn)行了自動(dòng)識(shí)別比較,其中最高的識(shí)別正確率不到80%[3-4].對(duì)于使用不同樂(lè)器的獨(dú)奏表演或者不同的音樂(lè)片段,基于不同的聲學(xué)特征進(jìn)行識(shí)別,識(shí)別精度往往差別很大,而且不能找到一個(gè)良好的聲學(xué)特征在識(shí)別各種樂(lè)器時(shí)均能表現(xiàn)出良好的健壯性.然而,研究發(fā)現(xiàn),人類(lèi)的聽(tīng)覺(jué)系統(tǒng)在聽(tīng)音辨物方面有獨(dú)特的優(yōu)勢(shì),對(duì)不同聲音的快速分辨幾乎是穩(wěn)定的,這就啟發(fā)人們?cè)谀承┉h(huán)節(jié)上模仿人類(lèi)聽(tīng)覺(jué)系統(tǒng)的聽(tīng)覺(jué)機(jī)理的處理機(jī)制,以提高識(shí)別系統(tǒng)對(duì)各種樂(lè)器識(shí)別的穩(wěn)定性.
現(xiàn)有的聽(tīng)覺(jué)模型主要用于語(yǔ)音識(shí)別[5],采用包含時(shí)間信息的三維同步譜和發(fā)放率譜模擬耳蝸核的特征提取功能,并且采用5層自組織特征映射(self-organizing map,SOM)網(wǎng)絡(luò)模擬聽(tīng)皮層的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),該模型復(fù)雜、計(jì)算量大.
針對(duì)樂(lè)器識(shí)別這一具體應(yīng)用,本文基于文獻(xiàn)研究成果,提出了只提取頻率和強(qiáng)度二維特征的耳蝸背腹側(cè)核(posteroventral cochlear nucleus,PVCN)模型和單層SOM的聽(tīng)皮層模型,簡(jiǎn)化了模型復(fù)雜度.
聽(tīng)覺(jué)系統(tǒng)是對(duì)聲音收集、傳導(dǎo)、處理、綜合的感覺(jué)系統(tǒng),一般將聽(tīng)覺(jué)系統(tǒng)劃分為外周聽(tīng)覺(jué)系統(tǒng)和聽(tīng)覺(jué)中樞神經(jīng)系統(tǒng).外周聽(tīng)覺(jué)系統(tǒng)包括外耳、中耳和內(nèi)耳.中樞神經(jīng)系統(tǒng)由下而上依次為耳蝸核、上橄欖復(fù)核、外側(cè)丘系、下丘、內(nèi)側(cè)膝狀體核、聽(tīng)皮層.基于聽(tīng)覺(jué)系統(tǒng)的生理結(jié)構(gòu),構(gòu)建其數(shù)學(xué)模型并用MATLAB軟件進(jìn)行計(jì)算機(jī)仿真.整個(gè)仿生聽(tīng)覺(jué)系統(tǒng)流程如圖1所示.
耳蝸對(duì)聲波的分析,是由基底膜的機(jī)械作用完成的.基底膜從功能上看相當(dāng)于一個(gè)頻譜分析儀,它能夠把傳入人耳的聲音信號(hào)在頻域上按頻帶進(jìn)行分解.不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上(如圖2所示) .圖2中顯示的是展平的耳蝸,其中:a是高頻聲音產(chǎn)生的行波,在狹窄而呈剛性的基底膜基部附近耗散;b是低頻聲音產(chǎn)生的行波能夠一直傳播到蝸?lái)敳畔?;c是在基底膜上產(chǎn)生最大振幅的頻率的位置編碼[6].
圖1 仿生聽(tīng)覺(jué)系統(tǒng)流程圖
基底膜不同位置對(duì)聲音的響應(yīng)過(guò)程相當(dāng)于一個(gè)帶通濾波器,各種研究表明,基于聽(tīng)覺(jué)心理和聽(tīng)覺(jué)生理的gammatone濾波器組模型能很好地模擬基底膜的濾波特性.Gammatone濾波器在時(shí)域上用一個(gè)沖擊響應(yīng)函數(shù)來(lái)表示其濾波特性,該gammatone函數(shù)表達(dá)式為
圖2 基底膜對(duì)不同頻率聲音的反應(yīng)
其中:n是濾波器階數(shù)(在此n=4);u(t)是單位階躍函數(shù),當(dāng)t<0,u(t)=0(當(dāng)t>0,u(t)=1);f0是中心頻率,單位為 Hz;Ф是初始相位,且Ф=0;B是gammatone濾波器的帶寬且B=b1·ERB(f0),b1=1.019,ERB是等效矩陣帶寬,且 ERB(f0)=24.7+0.108f0.將gammatone函數(shù)進(jìn)行Laplace變換,再?gòu)膕域映射到離散z域,得到8階的z域傳遞函數(shù)[7],則每個(gè)gammatone濾波器由4個(gè)二階的傳遞函數(shù)級(jí)聯(lián)實(shí)現(xiàn).該濾波器中采樣頻率為40kHz.
內(nèi)毛細(xì)胞是將機(jī)械能轉(zhuǎn)化成膜電位極性的聽(tīng)覺(jué)感受器細(xì)胞.每個(gè)內(nèi)毛細(xì)胞含有大約100個(gè)毛狀的靜纖毛,靜纖毛的彎曲導(dǎo)致內(nèi)毛細(xì)胞發(fā)生去極化和超極化,將聲壓轉(zhuǎn)換成神經(jīng)電信號(hào),這一過(guò)程是對(duì)聲波幅度進(jìn)行脈沖編碼,脈沖發(fā)放概率與輸入聲波幅度相對(duì)應(yīng).內(nèi)毛細(xì)胞以及與聽(tīng)覺(jué)神經(jīng)相連的突觸區(qū)域有幾個(gè)重要的生理反應(yīng)特性,如半波整流、非線(xiàn)性飽和抑制、短時(shí)自適應(yīng)和快速自適應(yīng)特性等.
內(nèi)毛細(xì)胞脈沖的發(fā)放概率是聲音刺激的強(qiáng)度的函數(shù),這一級(jí)公認(rèn)的模型是Meddis模型,這一模型與真實(shí)的生理學(xué)實(shí)驗(yàn)結(jié)果非常接近.Meddis模型假定在毛細(xì)胞中存在3個(gè)傳遞神經(jīng)遞質(zhì)的發(fā)放源,且神經(jīng)傳遞素在這3個(gè)發(fā)放源中通過(guò)再回收和再綜合處理環(huán)路傳遞信息[8-9].
則神經(jīng)的發(fā)放概率為:
(2)—(6)式組成了整個(gè)內(nèi)毛細(xì)胞 Meddis模型,其中k(t)是細(xì)胞膜的滲透性,stim(t)是輸入聲波的瞬時(shí)幅度,q(t)是自由釋放的遞質(zhì)量,c(t)是突觸間隙包含的遞質(zhì)量,w(t)是再生倉(cāng)庫(kù)中的遞質(zhì)量,g,y,x,r,l,h,A 和B 是時(shí)間常數(shù),dt為采樣間隔[8].
耳蝸核一般分為3個(gè)子核,分別為前腹側(cè)核(AVCN)、后腹側(cè)核(PVCN)和背側(cè)核(DCN).AVCN中神經(jīng)元主要功能是對(duì)低頻刺激鎖相;DCN的神經(jīng)元主要功能是側(cè)抑制作用;PVCN中主要是建立和振蕩反應(yīng)類(lèi)型神經(jīng)元.生理學(xué)實(shí)驗(yàn)表明振蕩反應(yīng)類(lèi)型的神經(jīng)元在刺激過(guò)程中不斷發(fā)放,發(fā)放率單調(diào)依賴(lài)于刺激的強(qiáng)度,此類(lèi)神經(jīng)元提取聲音信號(hào)的強(qiáng)度信息.本文為獲取表征聲音信號(hào)強(qiáng)度的發(fā)放率信息,忽略了AVCN和DCN的功能,建立PVCN模型模擬PVCN的功能.
PVCN模型主要完成對(duì)樂(lè)器聲音特征的提取.該P(yáng)VCN模型包含包絡(luò)檢測(cè)、短時(shí)積分和插值3個(gè)步驟.通過(guò)包絡(luò)檢測(cè)獲取各通道的平均發(fā)放率,包絡(luò)檢測(cè)功能由一個(gè)低通濾波器實(shí)現(xiàn),其表達(dá)式如(7)式所示.短時(shí)積分由一個(gè)積分器實(shí)現(xiàn),獲取各通道的平均發(fā)放率信息,積分器表達(dá)式如(8)式所示.最后,通過(guò)對(duì)各通道的平均發(fā)放率做插值,獲取發(fā)放率譜,該發(fā)放率譜是包含聲音頻率和強(qiáng)度信息的二維特征.
聽(tīng)皮層是處理聲音使人產(chǎn)生聽(tīng)覺(jué)的大腦高級(jí)中樞.研究表明,大腦接受外界輸入模式時(shí),將會(huì)分為不同的對(duì)應(yīng)區(qū)域,各區(qū)域?qū)斎肽J骄哂胁煌捻憫?yīng)特征,而且這個(gè)過(guò)程是自動(dòng)完成的,這種學(xué)習(xí)被稱(chēng)為自組織學(xué)習(xí).
1981年,Kohonen教授提出一種自組織特征映射網(wǎng),簡(jiǎn)稱(chēng)SOM[10].該網(wǎng)絡(luò)與人大腦中的自組織映射特性非常相似,能將任意維輸入模式在輸出層映射成一維或二維圖形,并保持其拓?fù)浣Y(jié)構(gòu)不變.因此,本文選用SOM網(wǎng)絡(luò)模擬大腦聽(tīng)皮層的功能.如圖3所示,SOM是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),輸入層模擬感知外界輸入信息的耳,輸出層(也被稱(chēng)為競(jìng)爭(zhēng)層)模擬做出響應(yīng)的聽(tīng)皮層.競(jìng)爭(zhēng)層上的神經(jīng)元以二維形式排列成節(jié)點(diǎn)矩陣.文獻(xiàn)[11]中詳細(xì)描述了自組織算法的具體步驟.
圖3 SOM的二維網(wǎng)絡(luò)結(jié)構(gòu)
本文仿生聽(tīng)覺(jué)系統(tǒng)包含27個(gè)并行通道,用Bark代表一個(gè)臨界頻帶的寬度,則覆蓋的頻率范圍是從1.3到18Bark,對(duì)應(yīng)頻率為133~5400Hz,每路覆蓋2/3Bark.盡管使用更多的通道可以使耳蝸輸出的空間分辨率提高,但是同時(shí)計(jì)算時(shí)間和復(fù)雜度也會(huì)增加.因此,為了平衡空間分辨率和計(jì)算量,本文選擇27個(gè)并行的gammatone濾波器組模擬基底膜的并行頻率通道.在gammatone濾波器模型之后各級(jí)、各通道的輸出將分別被處理.
內(nèi)毛細(xì)胞Meddis模型包括半波整流和非線(xiàn)性飽和、短時(shí)自適應(yīng)、低通濾波和快速自動(dòng)增益控制.根據(jù)生理學(xué)實(shí)驗(yàn),Meddis模型的各參數(shù)取值:A=5,B=300,g=2000,y=8,l=2500,r=6580,x=66.31,h=50000[8].經(jīng)過(guò) Meddis模型,獲取了各通道脈沖的發(fā)放概率.
PVCN模型從各通道中提取發(fā)放率譜,該發(fā)放率譜即為本系統(tǒng)的特征矢量.圖1描述了各通道PVCN模型具體的處理流程,圖1(a)為用作包絡(luò)檢測(cè)的低通濾波器,以獲取平均發(fā)放概率信息.圖1(b)是積分器.各通道的積分值被稱(chēng)為發(fā)放率,最后通過(guò)對(duì)各個(gè)通道的發(fā)放率做插值,獲得發(fā)放率譜.
本文所用素材庫(kù)來(lái)自于加拿大麥吉爾大學(xué)MUMS庫(kù),挑選在室內(nèi)環(huán)境下采集的吉他、豎琴、小號(hào)、鋼琴、薩克斯、喇叭和小提琴7種樂(lè)器的共243個(gè)獨(dú)奏樂(lè)曲文件,采樣頻率為44.1kHz,建立本文所用樂(lè)器素材庫(kù).將樂(lè)器素材庫(kù)中的243首樂(lè)曲送入如圖1所示的仿生聽(tīng)覺(jué)系統(tǒng),獲得243個(gè)發(fā)放率譜特征矢量,每個(gè)特征矢量均為27維.為直觀(guān)的表示不同樂(lè)器特征矢量之間的差異,每種樂(lè)器任意選取一個(gè)特征矢量,繪制成發(fā)放率譜圖.圖4即為繪制的7種樂(lè)器的發(fā)放率譜圖,在每種樂(lè)器的發(fā)放率譜圖中,橫軸代表通道,不同通道即為不同中心頻率,縱軸表示發(fā)放率大小.發(fā)放率譜圖是特征矢量的圖形化表示.
圖4 7種樂(lè)器的發(fā)放率譜圖
將7種樂(lè)器的243個(gè)特征矢量以33%/67%比例分別用作訓(xùn)練樣本和測(cè)試樣本,建立一個(gè)二維的SOM神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行分類(lèi)識(shí)別.該網(wǎng)絡(luò)輸入層由27個(gè)神經(jīng)元組成,相應(yīng)于特征矢量的維數(shù).競(jìng)爭(zhēng)層是由5×5=25個(gè)神經(jīng)元組成的二維平面陣列.將78個(gè)訓(xùn)練樣本送入網(wǎng)絡(luò),訓(xùn)練結(jié)果如圖5所示.
圖5中由x軸和y軸組成的二維平面即表示SOM網(wǎng)絡(luò)的競(jìng)爭(zhēng)層,25個(gè)方格代表25個(gè)神經(jīng)元,z軸表示神經(jīng)元突起的高度.神經(jīng)元的突起由樣本重疊形成,表示這些神經(jīng)元在訓(xùn)練中總是被擊中,在競(jìng)爭(zhēng)中獲勝.相反,那些未突起的神經(jīng)元由于未被樣本擊中,在競(jìng)爭(zhēng)中失敗.在二維平面上的7個(gè)神經(jīng)元突起,表示訓(xùn)練樣本被分成了7類(lèi),每一個(gè)突起表示一類(lèi),即一種樂(lè)器.
最后,將165個(gè)測(cè)試樣本送入SOM網(wǎng)絡(luò)進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示,平均識(shí)別率在75%以上.
圖5 訓(xùn)練結(jié)果示意圖
表1 樂(lè)器識(shí)別結(jié)果
本文提出了一個(gè)對(duì)于獨(dú)奏樂(lè)曲樂(lè)器識(shí)別的仿生聽(tīng)覺(jué)系統(tǒng).與以往用數(shù)字信號(hào)處理提取單一樂(lè)器聲學(xué)特征并用基于統(tǒng)計(jì)的分類(lèi)方法來(lái)進(jìn)行樂(lè)器識(shí)別相比,本文仿生聽(tīng)覺(jué)系統(tǒng)提取的發(fā)放率譜特征在識(shí)別各種樂(lè)器時(shí)均能表現(xiàn)出良好的健壯性,平均識(shí)別率在75%以上.實(shí)驗(yàn)證明了本文聽(tīng)覺(jué)仿生系統(tǒng)中PVCN模型提取的二維特征參數(shù)及簡(jiǎn)化的聽(tīng)皮層SOM模型在樂(lè)器識(shí)別中的有效性.
本文系統(tǒng)也具有一定的局限性,由于PVCN模型積分時(shí)間的限制,只對(duì)每個(gè)樂(lè)器1s短時(shí)聲音進(jìn)行特征提取,未能涵蓋樂(lè)器不同音域的所有特征.如果采用連續(xù)樂(lè)曲聲音進(jìn)行樂(lè)器識(shí)別,將會(huì)有效提高識(shí)別率.同時(shí),本文系統(tǒng)為簡(jiǎn)化計(jì)算,只采用了27個(gè)并行通道,覆蓋的頻率范圍僅為133~5400Hz,不能充分利用各類(lèi)樂(lè)器的聲音信息,如果增加通道數(shù)量和擴(kuò)大覆蓋的頻率范圍,會(huì)使識(shí)別率有更大的提高.這也是我們未來(lái)的改進(jìn)方向.
[1]ERONEN A.Comparison of features for musical instrument recognition[J].Workshop on Signal Processing for Audio and Acoustics(WASPAA),2001:19-22.
[2]SUMIT KUMAR BANCHHOR,ARIF KHAN.Musical instrument recognition using spectrogram and autocorrelation.International Journal of Soft Computing and Engineering[J].2012,2(1):1-4.
[3]林玉志.基于聲學(xué)特征的樂(lè)器識(shí)別研究[D].廣州:華南理工大學(xué),2012.
[4]鄧見(jiàn)光,潘曉恒,林玉志.基于聲學(xué)特征的樂(lè)器識(shí)別綜述[J].東莞理工學(xué)院學(xué)報(bào),2012,19(3):58-64.
[5]吳璽宏.人工神經(jīng)網(wǎng)絡(luò)聽(tīng)覺(jué)模型及其在說(shuō)話(huà)人識(shí)別中的應(yīng)用[D].北京:北京大學(xué),1995.
[6]MARK E BEAR,BRRY W CONNORS,MICHAEL A PARADISO.神經(jīng)科學(xué)——探索腦(中文版)第2版[M].北京:高等教育出版社,2004:332-361.
[7]陳世雄,宮琴,金慧君.用 Gammatone濾波器組仿真人耳基底膜的特性[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,48(6):1045-1046.
[8]MEDDIS R.Simulation of mechanical to neural transduction in the auditory receptor[J].Journal of the Acoustical Society of America,1986,79(3):702-711.
[9]ALISTAIR MCEWAN,ANDRéVAN SCHAIK.A silicon representation of the meddis inner hair cell model[J].Proceedings of the ICSC Symposia on Intelligent Systems & Application,2000:1544-078.
[10]TEUVO KOHONEN.The Self-organizing Maps[J].Proceedings of the IEEE,1990,78(9):1464-1480.
[11]楊占華,楊燕.SOM 神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展[J].2006,32(16):201-203.