亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聽(tīng)覺(jué)仿生模型的樂(lè)器識(shí)別

2014-09-15 04:29:02秦曉瑜陳海霞王連明

東北師大學(xué)報(bào)(自然科學(xué)版) 2014年1期

張琳，王珊，秦曉瑜，陳海霞，王連明

（1.東北師范大學(xué)應(yīng)用電子技術(shù)研究所，吉林長(zhǎng)春 130024；2.通化師范學(xué)院物理系，吉林通化 134000）

樂(lè)器識(shí)別作為聲源識(shí)別的一個(gè)重要分類(lèi)，是深入研究音頻檢索的基礎(chǔ).傳統(tǒng)的樂(lè)器識(shí)別大多是以MFCC和LPCC等作為樂(lè)器的聲學(xué)特征［1］，采用高斯混合模型、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行識(shí)別.文獻(xiàn)［2］研究了Mel頻率、delta倒譜系數(shù)和線(xiàn)性預(yù)測(cè)倒譜系數(shù)等聲學(xué)特征，然后用這些特征對(duì)16種西方管弦樂(lè)器進(jìn)行了自動(dòng)識(shí)別比較，其中最高的識(shí)別正確率不到80%［3－4］.對(duì)于使用不同樂(lè)器的獨(dú)奏表演或者不同的音樂(lè)片段，基于不同的聲學(xué)特征進(jìn)行識(shí)別，識(shí)別精度往往差別很大，而且不能找到一個(gè)良好的聲學(xué)特征在識(shí)別各種樂(lè)器時(shí)均能表現(xiàn)出良好的健壯性.然而，研究發(fā)現(xiàn)，人類(lèi)的聽(tīng)覺(jué)系統(tǒng)在聽(tīng)音辨物方面有獨(dú)特的優(yōu)勢(shì)，對(duì)不同聲音的快速分辨幾乎是穩(wěn)定的，這就啟發(fā)人們?cè)谀承┉h(huán)節(jié)上模仿人類(lèi)聽(tīng)覺(jué)系統(tǒng)的聽(tīng)覺(jué)機(jī)理的處理機(jī)制，以提高識(shí)別系統(tǒng)對(duì)各種樂(lè)器識(shí)別的穩(wěn)定性.

現(xiàn)有的聽(tīng)覺(jué)模型主要用于語(yǔ)音識(shí)別［5］，采用包含時(shí)間信息的三維同步譜和發(fā)放率譜模擬耳蝸核的特征提取功能，并且采用5層自組織特征映射（self－organizing map，SOM）網(wǎng)絡(luò)模擬聽(tīng)皮層的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，該模型復(fù)雜、計(jì)算量大.

針對(duì)樂(lè)器識(shí)別這一具體應(yīng)用，本文基于文獻(xiàn)研究成果，提出了只提取頻率和強(qiáng)度二維特征的耳蝸背腹側(cè)核（posteroventral cochlear nucleus，PVCN）模型和單層SOM的聽(tīng)皮層模型，簡(jiǎn)化了模型復(fù)雜度.

1 聽(tīng)覺(jué)系統(tǒng)生理結(jié)構(gòu)及其數(shù)學(xué)模型

聽(tīng)覺(jué)系統(tǒng)是對(duì)聲音收集、傳導(dǎo)、處理、綜合的感覺(jué)系統(tǒng)，一般將聽(tīng)覺(jué)系統(tǒng)劃分為外周聽(tīng)覺(jué)系統(tǒng)和聽(tīng)覺(jué)中樞神經(jīng)系統(tǒng).外周聽(tīng)覺(jué)系統(tǒng)包括外耳、中耳和內(nèi)耳.中樞神經(jīng)系統(tǒng)由下而上依次為耳蝸核、上橄欖復(fù)核、外側(cè)丘系、下丘、內(nèi)側(cè)膝狀體核、聽(tīng)皮層.基于聽(tīng)覺(jué)系統(tǒng)的生理結(jié)構(gòu)，構(gòu)建其數(shù)學(xué)模型并用MATLAB軟件進(jìn)行計(jì)算機(jī)仿真.整個(gè)仿生聽(tīng)覺(jué)系統(tǒng)流程如圖1所示.

1.1 基底膜和gammatone濾波器模型

耳蝸對(duì)聲波的分析，是由基底膜的機(jī)械作用完成的.基底膜從功能上看相當(dāng)于一個(gè)頻譜分析儀，它能夠把傳入人耳的聲音信號(hào)在頻域上按頻帶進(jìn)行分解.不同頻率的聲音產(chǎn)生不同的行波，其峰值出現(xiàn)在基底膜的不同位置上（如圖2所示） .圖2中顯示的是展平的耳蝸，其中：a是高頻聲音產(chǎn)生的行波，在狹窄而呈剛性的基底膜基部附近耗散；b是低頻聲音產(chǎn)生的行波能夠一直傳播到蝸?lái)敳畔?；c是在基底膜上產(chǎn)生最大振幅的頻率的位置編碼［6］.

圖1 仿生聽(tīng)覺(jué)系統(tǒng)流程圖

基底膜不同位置對(duì)聲音的響應(yīng)過(guò)程相當(dāng)于一個(gè)帶通濾波器，各種研究表明，基于聽(tīng)覺(jué)心理和聽(tīng)覺(jué)生理的gammatone濾波器組模型能很好地模擬基底膜的濾波特性.Gammatone濾波器在時(shí)域上用一個(gè)沖擊響應(yīng)函數(shù)來(lái)表示其濾波特性，該gammatone函數(shù)表達(dá)式為

圖2 基底膜對(duì)不同頻率聲音的反應(yīng)

其中：n是濾波器階數(shù)（在此n＝4）；u（t）是單位階躍函數(shù)，當(dāng)t＜0，u（t）＝0（當(dāng)t＞0，u（t）＝1）；f0是中心頻率，單位為 Hz；Ф是初始相位，且Ф＝0；B是gammatone濾波器的帶寬且B＝b1·ERB（f0），b1＝1.019，ERB是等效矩陣帶寬，且 ERB（f0）＝24.7＋0.108f0.將gammatone函數(shù)進(jìn)行Laplace變換，再?gòu)膕域映射到離散z域，得到8階的z域傳遞函數(shù)［7］，則每個(gè)gammatone濾波器由4個(gè)二階的傳遞函數(shù)級(jí)聯(lián)實(shí)現(xiàn).該濾波器中采樣頻率為40kHz.

1.2 內(nèi)毛細(xì)胞及其Meddis模型

內(nèi)毛細(xì)胞是將機(jī)械能轉(zhuǎn)化成膜電位極性的聽(tīng)覺(jué)感受器細(xì)胞.每個(gè)內(nèi)毛細(xì)胞含有大約100個(gè)毛狀的靜纖毛，靜纖毛的彎曲導(dǎo)致內(nèi)毛細(xì)胞發(fā)生去極化和超極化，將聲壓轉(zhuǎn)換成神經(jīng)電信號(hào)，這一過(guò)程是對(duì)聲波幅度進(jìn)行脈沖編碼，脈沖發(fā)放概率與輸入聲波幅度相對(duì)應(yīng).內(nèi)毛細(xì)胞以及與聽(tīng)覺(jué)神經(jīng)相連的突觸區(qū)域有幾個(gè)重要的生理反應(yīng)特性，如半波整流、非線(xiàn)性飽和抑制、短時(shí)自適應(yīng)和快速自適應(yīng)特性等.

內(nèi)毛細(xì)胞脈沖的發(fā)放概率是聲音刺激的強(qiáng)度的函數(shù)，這一級(jí)公認(rèn)的模型是Meddis模型，這一模型與真實(shí)的生理學(xué)實(shí)驗(yàn)結(jié)果非常接近.Meddis模型假定在毛細(xì)胞中存在3個(gè)傳遞神經(jīng)遞質(zhì)的發(fā)放源，且神經(jīng)傳遞素在這3個(gè)發(fā)放源中通過(guò)再回收和再綜合處理環(huán)路傳遞信息［8－9］.

則神經(jīng)的發(fā)放概率為：

（2）—（6）式組成了整個(gè)內(nèi)毛細(xì)胞 Meddis模型，其中k（t）是細(xì)胞膜的滲透性，stim（t）是輸入聲波的瞬時(shí)幅度，q（t）是自由釋放的遞質(zhì)量，c（t）是突觸間隙包含的遞質(zhì)量，w（t）是再生倉(cāng)庫(kù)中的遞質(zhì)量，g，y，x，r，l，h，A 和B 是時(shí)間常數(shù)，dt為采樣間隔［8］.

1.3 耳蝸后腹側(cè)核及其PVCN模型

耳蝸核一般分為3個(gè)子核，分別為前腹側(cè)核（AVCN）、后腹側(cè)核（PVCN）和背側(cè)核（DCN）.AVCN中神經(jīng)元主要功能是對(duì)低頻刺激鎖相；DCN的神經(jīng)元主要功能是側(cè)抑制作用；PVCN中主要是建立和振蕩反應(yīng)類(lèi)型神經(jīng)元.生理學(xué)實(shí)驗(yàn)表明振蕩反應(yīng)類(lèi)型的神經(jīng)元在刺激過(guò)程中不斷發(fā)放，發(fā)放率單調(diào)依賴(lài)于刺激的強(qiáng)度，此類(lèi)神經(jīng)元提取聲音信號(hào)的強(qiáng)度信息.本文為獲取表征聲音信號(hào)強(qiáng)度的發(fā)放率信息，忽略了AVCN和DCN的功能，建立PVCN模型模擬PVCN的功能.

PVCN模型主要完成對(duì)樂(lè)器聲音特征的提取.該P(yáng)VCN模型包含包絡(luò)檢測(cè)、短時(shí)積分和插值3個(gè)步驟.通過(guò)包絡(luò)檢測(cè)獲取各通道的平均發(fā)放率，包絡(luò)檢測(cè)功能由一個(gè)低通濾波器實(shí)現(xiàn)，其表達(dá)式如（7）式所示.短時(shí)積分由一個(gè)積分器實(shí)現(xiàn)，獲取各通道的平均發(fā)放率信息，積分器表達(dá)式如（8）式所示.最后，通過(guò)對(duì)各通道的平均發(fā)放率做插值，獲取發(fā)放率譜，該發(fā)放率譜是包含聲音頻率和強(qiáng)度信息的二維特征.

1.4 聽(tīng)皮層及其SOM模型

聽(tīng)皮層是處理聲音使人產(chǎn)生聽(tīng)覺(jué)的大腦高級(jí)中樞.研究表明，大腦接受外界輸入模式時(shí)，將會(huì)分為不同的對(duì)應(yīng)區(qū)域，各區(qū)域?qū)斎肽Ｊ骄哂胁煌捻憫?yīng)特征，而且這個(gè)過(guò)程是自動(dòng)完成的，這種學(xué)習(xí)被稱(chēng)為自組織學(xué)習(xí).

1981年，Kohonen教授提出一種自組織特征映射網(wǎng)，簡(jiǎn)稱(chēng)SOM［10］.該網(wǎng)絡(luò)與人大腦中的自組織映射特性非常相似，能將任意維輸入模式在輸出層映射成一維或二維圖形，并保持其拓?fù)浣Y(jié)構(gòu)不變.因此，本文選用SOM網(wǎng)絡(luò)模擬大腦聽(tīng)皮層的功能.如圖3所示，SOM是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)，輸入層模擬感知外界輸入信息的耳，輸出層（也被稱(chēng)為競(jìng)爭(zhēng)層）模擬做出響應(yīng)的聽(tīng)皮層.競(jìng)爭(zhēng)層上的神經(jīng)元以二維形式排列成節(jié)點(diǎn)矩陣.文獻(xiàn)［11］中詳細(xì)描述了自組織算法的具體步驟.

圖3 SOM的二維網(wǎng)絡(luò)結(jié)構(gòu)

2 仿真實(shí)現(xiàn)

本文仿生聽(tīng)覺(jué)系統(tǒng)包含27個(gè)并行通道，用Bark代表一個(gè)臨界頻帶的寬度，則覆蓋的頻率范圍是從1.3到18Bark，對(duì)應(yīng)頻率為133～5400Hz，每路覆蓋2／3Bark.盡管使用更多的通道可以使耳蝸輸出的空間分辨率提高，但是同時(shí)計(jì)算時(shí)間和復(fù)雜度也會(huì)增加.因此，為了平衡空間分辨率和計(jì)算量，本文選擇27個(gè)并行的gammatone濾波器組模擬基底膜的并行頻率通道.在gammatone濾波器模型之后各級(jí)、各通道的輸出將分別被處理.

內(nèi)毛細(xì)胞Meddis模型包括半波整流和非線(xiàn)性飽和、短時(shí)自適應(yīng)、低通濾波和快速自動(dòng)增益控制.根據(jù)生理學(xué)實(shí)驗(yàn)，Meddis模型的各參數(shù)取值：A＝5，B＝300，g＝2000，y＝8，l＝2500，r＝6580，x＝66.31，h＝50000［8］.經(jīng)過(guò) Meddis模型，獲取了各通道脈沖的發(fā)放概率.

PVCN模型從各通道中提取發(fā)放率譜，該發(fā)放率譜即為本系統(tǒng)的特征矢量.圖1描述了各通道PVCN模型具體的處理流程，圖1（a）為用作包絡(luò)檢測(cè)的低通濾波器，以獲取平均發(fā)放概率信息.圖1（b）是積分器.各通道的積分值被稱(chēng)為發(fā)放率，最后通過(guò)對(duì)各個(gè)通道的發(fā)放率做插值，獲得發(fā)放率譜.

本文所用素材庫(kù)來(lái)自于加拿大麥吉爾大學(xué)MUMS庫(kù)，挑選在室內(nèi)環(huán)境下采集的吉他、豎琴、小號(hào)、鋼琴、薩克斯、喇叭和小提琴7種樂(lè)器的共243個(gè)獨(dú)奏樂(lè)曲文件，采樣頻率為44.1kHz，建立本文所用樂(lè)器素材庫(kù).將樂(lè)器素材庫(kù)中的243首樂(lè)曲送入如圖1所示的仿生聽(tīng)覺(jué)系統(tǒng)，獲得243個(gè)發(fā)放率譜特征矢量，每個(gè)特征矢量均為27維.為直觀(guān)的表示不同樂(lè)器特征矢量之間的差異，每種樂(lè)器任意選取一個(gè)特征矢量，繪制成發(fā)放率譜圖.圖4即為繪制的7種樂(lè)器的發(fā)放率譜圖，在每種樂(lè)器的發(fā)放率譜圖中，橫軸代表通道，不同通道即為不同中心頻率，縱軸表示發(fā)放率大小.發(fā)放率譜圖是特征矢量的圖形化表示.

圖4 7種樂(lè)器的發(fā)放率譜圖

3 識(shí)別結(jié)果

將7種樂(lè)器的243個(gè)特征矢量以33%／67%比例分別用作訓(xùn)練樣本和測(cè)試樣本，建立一個(gè)二維的SOM神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行分類(lèi)識(shí)別.該網(wǎng)絡(luò)輸入層由27個(gè)神經(jīng)元組成，相應(yīng)于特征矢量的維數(shù).競(jìng)爭(zhēng)層是由5×5＝25個(gè)神經(jīng)元組成的二維平面陣列.將78個(gè)訓(xùn)練樣本送入網(wǎng)絡(luò)，訓(xùn)練結(jié)果如圖5所示.

圖5中由x軸和y軸組成的二維平面即表示SOM網(wǎng)絡(luò)的競(jìng)爭(zhēng)層，25個(gè)方格代表25個(gè)神經(jīng)元，z軸表示神經(jīng)元突起的高度.神經(jīng)元的突起由樣本重疊形成，表示這些神經(jīng)元在訓(xùn)練中總是被擊中，在競(jìng)爭(zhēng)中獲勝.相反，那些未突起的神經(jīng)元由于未被樣本擊中，在競(jìng)爭(zhēng)中失敗.在二維平面上的7個(gè)神經(jīng)元突起，表示訓(xùn)練樣本被分成了7類(lèi)，每一個(gè)突起表示一類(lèi)，即一種樂(lè)器.

最后，將165個(gè)測(cè)試樣本送入SOM網(wǎng)絡(luò)進(jìn)行測(cè)試，測(cè)試結(jié)果如表1所示，平均識(shí)別率在75%以上.

圖5 訓(xùn)練結(jié)果示意圖

表1 樂(lè)器識(shí)別結(jié)果

4 結(jié)論與展望

本文提出了一個(gè)對(duì)于獨(dú)奏樂(lè)曲樂(lè)器識(shí)別的仿生聽(tīng)覺(jué)系統(tǒng).與以往用數(shù)字信號(hào)處理提取單一樂(lè)器聲學(xué)特征并用基于統(tǒng)計(jì)的分類(lèi)方法來(lái)進(jìn)行樂(lè)器識(shí)別相比，本文仿生聽(tīng)覺(jué)系統(tǒng)提取的發(fā)放率譜特征在識(shí)別各種樂(lè)器時(shí)均能表現(xiàn)出良好的健壯性，平均識(shí)別率在75%以上.實(shí)驗(yàn)證明了本文聽(tīng)覺(jué)仿生系統(tǒng)中PVCN模型提取的二維特征參數(shù)及簡(jiǎn)化的聽(tīng)皮層SOM模型在樂(lè)器識(shí)別中的有效性.

本文系統(tǒng)也具有一定的局限性，由于PVCN模型積分時(shí)間的限制，只對(duì)每個(gè)樂(lè)器1s短時(shí)聲音進(jìn)行特征提取，未能涵蓋樂(lè)器不同音域的所有特征.如果采用連續(xù)樂(lè)曲聲音進(jìn)行樂(lè)器識(shí)別，將會(huì)有效提高識(shí)別率.同時(shí)，本文系統(tǒng)為簡(jiǎn)化計(jì)算，只采用了27個(gè)并行通道，覆蓋的頻率范圍僅為133～5400Hz，不能充分利用各類(lèi)樂(lè)器的聲音信息，如果增加通道數(shù)量和擴(kuò)大覆蓋的頻率范圍，會(huì)使識(shí)別率有更大的提高.這也是我們未來(lái)的改進(jìn)方向.

［1］ERONEN A.Comparison of features for musical instrument recognition［J］.Workshop on Signal Processing for Audio and Acoustics（WASPAA），2001：19－22.

［2］SUMIT KUMAR BANCHHOR，ARIF KHAN.Musical instrument recognition using spectrogram and autocorrelation.International Journal of Soft Computing and Engineering［J］.2012，2（1）：1－4.

［3］林玉志.基于聲學(xué)特征的樂(lè)器識(shí)別研究［D］.廣州：華南理工大學(xué)，2012.

［4］鄧見(jiàn)光，潘曉恒，林玉志.基于聲學(xué)特征的樂(lè)器識(shí)別綜述［J］.東莞理工學(xué)院學(xué)報(bào)，2012，19（3）：58－64.

［5］吳璽宏.人工神經(jīng)網(wǎng)絡(luò)聽(tīng)覺(jué)模型及其在說(shuō)話(huà)人識(shí)別中的應(yīng)用［D］.北京：北京大學(xué)，1995.

［6］MARK E BEAR，BRRY W CONNORS，MICHAEL A PARADISO.神經(jīng)科學(xué)——探索腦（中文版）第2版［M］.北京：高等教育出版社，2004：332－361.

［7］陳世雄，宮琴，金慧君.用 Gammatone濾波器組仿真人耳基底膜的特性［J］.清華大學(xué)學(xué)報(bào)：自然科學(xué)版，2008，48（6）：1045－1046.

［8］MEDDIS R.Simulation of mechanical to neural transduction in the auditory receptor［J］.Journal of the Acoustical Society of America，1986，79（3）：702－711.

［9］ALISTAIR MCEWAN，ANDRéVAN SCHAIK.A silicon representation of the meddis inner hair cell model［J］.Proceedings of the ICSC Symposia on Intelligent Systems ＆ Application，2000：1544－078.

［10］TEUVO KOHONEN.The Self－organizing Maps［J］.Proceedings of the IEEE，1990，78（9）：1464－1480.

［11］楊占華，楊燕.SOM 神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展［J］.2006，32（16）：201－203.