鄧見光 潘曉衡 林玉志
(1.東莞理工學(xué)院 工程技術(shù)研究院,廣東東莞 523808 2.華南理工大學(xué) 計算機科學(xué)與工程學(xué)院,廣州 510006)
聲源識別在自動檢索和分類應(yīng)用中發(fā)揮著重要的作用,其可以讓人從目前巨量的數(shù)字音頻信號檢索中解放出來。作為聲源識別的一種,音樂內(nèi)容分析包含多方面的內(nèi)容,如媒體注釋、歌手識別、音樂寫譜、音頻編碼以及信息提取等。樂器識別是音樂內(nèi)容分析的一個重要子問題,它可以為其它聲源識別技術(shù) (如語音識別)提供有效參考。雖然樂器識別的復(fù)雜度與說話者識別和語音識別差不多,但由于其商業(yè)應(yīng)用的不足,目前還不像說話者識別和語音識別那樣得到成熟發(fā)展,因此其將成為音頻處理領(lǐng)域的下一個研究熱點。
樂器,泛指可以用各種方法奏出聲音的工具,一般分為民族樂器與西方樂器,目前主要研究的是西方樂器。傳統(tǒng)上把西方樂器分成3大類,分別為弦樂器、銅管樂器、木管樂器。弦樂器按發(fā)聲方法分為擦弦樂器、撥弦樂器和擊弦樂器。擦弦樂器主要有小提琴、中提琴、大提琴、低音大提琴;撥弦樂器主要有吉他、豎琴;擊弦樂器有鋼琴。銅管樂器是一種將氣流吹進吹嘴之后造成嘴唇振動的樂器,主要有小號、短號、法國號、薩克號、低音號等。木管樂器包括長笛、雙簧管、單簧管、排蕭和低音管等。同類的樂器,如小提琴和中提琴、雙簧管和中音雙簧管 (英國管)以及長號和圓號 (法國號)等在聲音上差別不大,應(yīng)用人工的方法很難區(qū)分;盡管如此,不同類的樂器很容易區(qū)分?;谟嬎銠C的樂器識別方法也有類似的識別效果,樂器類別的識別精度比識別出具體樂器的精度要高。
因識別的相似性,樂器識別方法是在語音識別和說話者識別的基礎(chǔ)上發(fā)展起來的,其方法與語音識別類似,主要流程如圖1[1]:
圖1 樂器識別流程
和語音信號處理及識別相比,對于基于聲學(xué)特征的樂器識別的研究相對較少。進入20世紀90年代以后,這個領(lǐng)域的研究工作取得了很大進展,國際上發(fā)表的有關(guān)論文數(shù)量大幅增長。盡管如此,目前國內(nèi)有關(guān)該領(lǐng)域的比較全面的綜述文章還未出現(xiàn),因此有必要對最近十余年的研究工作進行一下總結(jié)。在該領(lǐng)域比較代表性的期刊和會議包括IEEE Transaction on Speech and Audio Processing、IEEE Transaction on Pattern Analysis and Machine Intelligence、IEEE Transaction on Multimedia、IEEE Transaction on Signal Processing、IEEE International Conference on Acoustics、Speech and Signal Processing、IEEE International Conference on Multi-media and Expo和International Symposium on Music Information Retrieval等。下文我們將對基于聲學(xué)特征的樂器識別領(lǐng)域現(xiàn)有的研究成果進行綜述。
對于使用不同樂器的獨奏表演或者不同的音樂片段,基于不同的聲學(xué)特征進行識別,識別精度往往差別很大,并且不能找到一個良好的聲學(xué)特征在識別各種樂器時均能表現(xiàn)出良好的健壯性,因此在樂器識別中需要研究多種聲學(xué)特征。根據(jù)數(shù)據(jù)的抽取領(lǐng)域,抽取的聲學(xué)特征可以分為下面幾類[2-3]:
1)時域特征:將樂器音頻信號作為一個整體計算 (不分成幀),特征例如起始時間、有效時間等;
2)能量特征:此類特征跟信號中包含的能量特征有關(guān),例如總的能量、和聲能量、噪音部分能量[4];
3)波譜特征:基于信號的短時傅麗葉變換的特征 (STFT)計算出來的特征,例如波譜質(zhì)心、波譜差幅、波譜斜度;
4)和聲特征:基于信號的正弦和聲模型的計算的特征,例如基礎(chǔ)頻率、非和聲、奇偶比率等;
5)感知特征:利用人類的聽覺過程的模型來計算的特征,例如MEL倒譜系數(shù)、音量、刺耳度等。
近年來,關(guān)于特征抽取的研究已有很多成果公開發(fā)表。Eronen[5]針對16種西方管弦樂器的自動識別問題做了特征比較研究,他考慮的特征包括Mel頻率、線性預(yù)測倒譜系數(shù)和delta倒譜系數(shù)等,其對樂器族的最高識別率僅為77%。Krishna[6]等同樣在單音符樂器識別問題中比較了不同特征 (MFCC和L PCC)和分類方法 (高斯混合模型和K近鄰法)的作用,其針對14種樂器的最高平均識別率可達90%。文獻[7]使用高斯混合模型和支持向量機來分類9種樂器的音樂片斷,用線性預(yù)測參數(shù) (LPC)和基于倒譜系數(shù)和MFCC系數(shù)特征組合的傅里葉變換獲得70%的識別率。在文獻[8]中,Martin使用一系列的感知特征來分類27種樂器,得到了86%的樂器族識別率和71%的個體樂器識別率,所建立的系統(tǒng)在處理噪音和混響的音節(jié)具有較好的健壯性。文獻[9]使用一系列感知特征來分類30種樂器的獨奏音節(jié),得到了94%的樂器族識別率和85%的個體樂器識別率。在文獻[10]中,Agostini只使用波譜特征來分類27種樂器,得到了大約96%的樂器族識別率和大約92%的個體識別率。在文獻 [11]中,作者使用基本頻率依靠波譜、時域、調(diào)制及其它特征的多元正態(tài)分布得到大約90%的樂器族識別率和大約80%的個體樂器識別率。在文獻 [12]中,作者采用一種稱為ARTMAP的神經(jīng)網(wǎng)絡(luò)來對鋼琴、吉他、小號、薩克斯和長笛等五類樂器所演奏的單音符信號進行區(qū)分,并取得了不錯的分類效果。在文獻[13]中,作者采用頻譜特征對來自27種樂器所演奏的1007段音頻信號進行了自動分類研究,實驗結(jié)果表明二次分類器所取得的效果最好,其優(yōu)于目前流行的SVM分類器和傳統(tǒng)的最近鄰分類器,該分類器對來自具體樂器所演奏的音符的平均分類錯誤率為7.19%,對樂器族的平均識別錯誤率僅為3.13%。
下面對目前研究中用的比較多的特征進行詳細描述,并對具體的抽取算法進行簡單概述。
共振峰是指在聲音頻譜中能量相對集中的一些區(qū)域,其是音質(zhì)的決定因素,同時反映了聲道 (共振腔)的物理特征。共振峰是語音識別的必要信息,同時也是樂器識別的一個重要特征。倒譜系數(shù)是表示共振峰值的一個方法,包含信號量y(n)的倒譜系數(shù)定義為:
利用同態(tài)處理方法,對語音信號求離散傅里葉變換DFT后取對數(shù),再求反變換iDFT即得到倒譜系數(shù)。實驗表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。
F表示離散傅麗葉變換 (DFT)。上面等式中有兩個傅麗葉變換,其計算效率不是很高,如果用帶有濾波器的MEL頻率倒譜系數(shù) (MFCC)或線性預(yù)測系數(shù)則有更高的效率。
另外一個不用上述等式的原因是由于心理聲學(xué)的利用率。DFT使用的是線性頻率分辨率,所以要使用一些扭曲變換將線性頻率刻度轉(zhuǎn)換成感知刻度。當然轉(zhuǎn)換LP分析器是有限的,但使用扭曲線性預(yù)測特征 (WLP)是可以克服這個問題。
綜上所述,倒譜系數(shù)因其計算效率較低,在實際的樂器識別中很少使用。下面介紹兩種基于倒譜系數(shù)的改進特征,即Mel頻率倒譜系數(shù)和線性預(yù)測倒譜系數(shù)。
Mel頻率 (Mel-Frequency Cepstrum Coefficients,MFCC)是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應(yīng)關(guān)系。MFCC是利用它們之間的這種關(guān)系計算得到的Hz頻譜特征,目前MFCC已經(jīng)廣泛應(yīng)用在語音識別領(lǐng)域。由于Mel頻率與Hz頻率之間非線性的對應(yīng)關(guān)系,使得MFCC隨著頻率的提高,其計算精度呈下降趨勢。因此在應(yīng)用中,常常丟棄中高頻MFCC,只使用低頻MFCC。
MFCC參數(shù)的提取步驟如下[14]:
預(yù)濾波:CODEC前端帶寬為300-3 400 Hz的抗混疊濾波器。
A/D變換:8 kHz的采樣頻率,12 bit的線性量化精度。
預(yù)加重:通過一個一階有限激勵響應(yīng)高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應(yīng)的影響。
分幀:根據(jù)語音的短時平穩(wěn)特性,語音可以以幀為單位進行處理,實驗中選取的語音幀長為32 ms,幀疊為16 ms。
加窗:采用哈明窗對一幀語音加窗,以減小吉布斯效應(yīng)的影響。
快速傅立葉變換 (Fast Fourier Transformation,F(xiàn)FT):將時域信號變換成為信號的功率譜。
三角窗濾波:用一組Mel頻標上線性分布的三角窗濾波器 (共24個三角窗濾波器),對信號的功率譜濾波,每一個三角窗濾波器覆蓋的范圍都近似于人耳的一個臨界帶寬,以此來模擬人耳的掩蔽效應(yīng)。
求對數(shù):三角窗濾波器組的輸出求取對數(shù),可以得到近似于同態(tài)變換的結(jié)果。
離散余弦變換 (Discrete Cosine Transformation,DCT):去除各維信號之間的相關(guān)性,將信號映射到低維空間。
譜加權(quán):由于倒譜的低階參數(shù)易受說話人特性、信道特性等的影響,而高階參數(shù)的分辨能力比較低,所以需要進行譜加權(quán),抑制其低階和高階參數(shù)。
倒譜均值減 (Cepstrum Mean Subtraction,CMS):CMS可以有效地減小語音輸入信道對特征參數(shù)的影響。
差分參數(shù):大量實驗表明,在語音特征中加入表征語音動態(tài)特性的差分參數(shù),能夠提高系統(tǒng)的識別性能。
短時能量:語音的短時能量也是重要的特征參數(shù)。
在上述MFCC參數(shù)的提取過程中,低頻信息得到增強,即Mel頻率轉(zhuǎn)換去除了一些次要的信息,而保留了有用信息,這較好地反映了人耳對低頻信號比對高頻信號更敏感的非線性特征。因此,MFCC系數(shù)在抗噪性和提高系統(tǒng)的識別率方面具有一定的優(yōu)勢。
線性預(yù)測分析從人的發(fā)聲機理入手,通過對聲道的短管級聯(lián)模型進行研究,認為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式,從而在n時刻的信號可以用前若干時刻信號的線性組合來估計。線性預(yù)測倒譜系數(shù) (LPCC)是根據(jù)聲管模型建立的特征參數(shù),主要反映聲道的響應(yīng)。一般情況下,只需要幾十個倒譜系數(shù)就能較好地描述語音的共振峰特性。線性預(yù)測特別適用于語音識別,在樂器識別中可以得到很好的應(yīng)用效果[15]。通過最小化實際語音采樣值和線性預(yù)測采樣值之間的均方差,即可得到線性預(yù)測系數(shù)LPC。LPCC的計算方法有很多,如自相關(guān)法 (Durbin法)、協(xié)方差法、格型法等,其提取過程如下:
1)求解線性預(yù)測LPC。
在線性預(yù)測LPC分析中,聲道模型表示為式 (1)的全極點模型。
式中p是LPC分析的階數(shù),ak為線性預(yù)測系數(shù) (k=1,2,…,p),A(z)為逆濾波器。LPC分析就是求解線性預(yù)測系數(shù)ak,求解ak的方法主要有自相關(guān)法、協(xié)方差法等。
2)求LPC的倒譜系數(shù)LPCC。
語音信號x(n)的復(fù)倒譜x(n)定義為x(n)的Z變換的對數(shù)的反Z變換,即為式 (2)。
如果只考慮X(z)的模,而忽略它的相位,那就得到信號的倒譜c(n)為:
LPCC參數(shù)不是由原始信號x(n)得到,而是由LPC系數(shù)an得到的。利用式 (2)、(3)可得LPCC參數(shù)的遞推公式:
與LPCC這種預(yù)測參數(shù)模型類似的聲學(xué)特征還有線譜對LSP、反射系數(shù)等等。
聲音是一種壓力波,具有音量、振幅、頻率、音調(diào)等特征,另外還有基于時間的聲音結(jié)構(gòu)、聲音達到最大音量有多快、可持續(xù)多長時間以及聲音消失直到聽不到時的耗時[16]等特征。聲音變化過程分為兩個階段,一是上升,即聲波從靜音達到最大振幅或音量所需時間;二是衰變,即聲波從最大振幅或音量衰減為靜音所需的時間。由聲音的“音量-時間”形成的形狀特性叫做“振幅包絡(luò)”。
振幅包絡(luò)包含了聲音的很多信息,如當拔動小提琴的琴弦時聲音的激發(fā),在激發(fā)和回聲之間,琴弦的振動信息則隱藏在短暫的上升階段當中。包絡(luò)的振幅可以通過信號的半波整流、低通濾波、信號能量的均方根等方法進行計算,其中信號能量的均方根是一種獲取信號振幅包絡(luò)的直觀方法,通常用在仿真模擬當中。
1)上升過程 (Onset duration)。上升過程是指上升開始到聲音振幅最大的過程[7]。當樂器開始發(fā)出聲音時,不同樂器的上升過程中的時間和振幅是有差異的,利用這個差異可以達到識別樂器的目的。
因為聲音在任何時間都可能達到最大值,所以要使用一些閥值。首先規(guī)定在-10分貝之上和音量均方根平均值之下作為起點。然后取音量均方根的對數(shù)再乘以10,再用45 ms漢寧窗 (余弦平方窗)平滑化。從而得到具有明顯差異的振幅-時間圖,根據(jù)閥值取得斜率從而識別出樂器。如圖2所示:
圖2 鋼琴 (左)和小提琴 (右)的短時能量均方根包絡(luò)
2)振幅調(diào)制 (AM)特征。RMS能量均方根的計算同樣可以用來抽取振幅調(diào)制屬性的特征:在兩個頻率范圍中,分別是在4~8 Hz的顫音和在10~40 Hz的音調(diào)的“粒狀”或“粗糙度”。首先,使用信號低通濾波來計算振幅包絡(luò),從而取得6個系數(shù),分別是兩個頻率范圍的AM頻率,AM強度和AM試探強度。這兩組系數(shù)分別表示顫音的頻率和強度,和音調(diào)“粒狀”的頻率和強度。
波譜質(zhì)心 (Spectral centroid,SC)是一個簡單而又非常有用的特征,研究者發(fā)現(xiàn)它與聲音的“活潑”或“刺耳”有關(guān)??梢酝ㄟ^短時聲譜頻率的對數(shù)來計算出SC。SC的平均值、最大值和標準偏差都可以當作特征來識別樂器[8]。然而,音樂的和聲波譜很難測量,通過對濾波器輸出的計算則可以更穩(wěn)健得到SC。我們用下面這個等式來計算波譜質(zhì)心:
K是濾波器的通道序列,其均方根值是p(k),中心頻率是f(k),B代表濾波器的總通道數(shù)。濾波器通過FFT仿真。
另外一種計算質(zhì)心的方法是通過對MEL頻率濾波器的輸出的計算,可以稍微簡化計算的過程。
除了上述特征,還有不少聲學(xué)特征,如MPG7譜平整度、常量Q-系數(shù)、上升異步性特征、基本頻率等。MPG7譜平整度 (MPEG7 Audio spectrum flatness,ASF),是在很多譜段計算出來的,能更精確描述譜的平整度,這個特征在樂器識別中非常有用。Brown[17]報告了用來描述波譜的不規(guī)則性或平滑性的常量-Q系數(shù) (Based on constant-Q transform)的頻率衍生可以有效的識別樂器。上升異步性特征與能量和頻率的比的差異性相關(guān),一個正弦包代表用來計算不同和聲的整體包絡(luò),對于不同和聲的上升階段的標準方差用來作為一個特征。在文獻 [12]中作者用算法來計算單調(diào)的基本頻率 (Fundamental frequency),并作為一個特征,同時,它的標準偏差也作為顫音的一個特征。
很顯然,樂器識別是模式識別的一種。模式識別的目標是把一組稱作測試集的模式分成兩類或者多類,這種分類方法是通過比較被測試數(shù)據(jù)和己知類別的數(shù)據(jù)的相似性完成的[17]。被測試數(shù)據(jù)稱作測試集,已知類別的數(shù)據(jù)稱作訓(xùn)練集,訓(xùn)練集作為一個基礎(chǔ)來判斷未知類別的數(shù)據(jù)和哪一類別相似。
在進行樂器識別時,人們首先對不同樂器發(fā)出的聲音建立一個主觀描述,當聽到一個新的、未知類別的樂器聲音時,大腦會自動把未知樂器聲音同主觀描述相比較,比較和哪一類別的數(shù)據(jù)最為接近,從而形成一個判斷。而在應(yīng)用計算機對樂器進行識別時,首先提取未知樂器聲音的特征向量,然后用未知數(shù)據(jù)的特征向量和已知類別的特征向量的相似度作為分類依據(jù)進行樂器識別[18]。
常用的樂器識別方法主要有兩類,分別是基于距離的分類方法和基于可能性的分類方法。下面進行概述。
高斯混合模型 (GMM)是用多個N維高斯分布概率密度函數(shù)的加權(quán)組合來描述矢量在概率空間分布的混合模型,因此獨立文本性質(zhì),即無監(jiān)督的訓(xùn)練方式,使得該模型實現(xiàn)容易,所需存儲空間及運算量均有利于系統(tǒng)的實時實現(xiàn),尤其適用于對不同模式集合的初分類。高斯混合模型在語音、說話者識別上廣泛使用,同樣也成功適用于樂器識別[19],并成了樂器識別分類的主要方法。
支持向量機 (Support vector machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中。
支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性 (即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力 (即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力[20]。
最近鄰 (K-nearest neighbor,KNN)分類算法是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似 (即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分類樣本所屬的類別。KNN方法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分類樣本集來說,KNN方法較其他方法更為適合。
本文對近年來基于聲學(xué)特征的樂器識別領(lǐng)域所取得的研究成果進行了全面的綜述。從研究對象來看,由于音樂在人們社會生活中的特殊作用,樂器識別必將成為音頻處理領(lǐng)域中的一個研究熱點。由于樂器的種類繁多,差異較大,所以樂器識別是一個十分復(fù)雜的研究內(nèi)容,這種復(fù)雜度不管在內(nèi)容還是在形式上都能體現(xiàn)出來,這使得樂器識別比語音處理更具有挑戰(zhàn)性。從目前的研究狀況和應(yīng)用需求來看,在可預(yù)見的將來,基于聲學(xué)特征的樂器識別仍將是計算機樂器分析與識別領(lǐng)域的主要研究方向。
未來幾年,樂器識別技術(shù)與音樂處理技術(shù)相結(jié)合的聽覺媒體數(shù)據(jù)分析將成為另一個很有前途的研究方向。傳統(tǒng)方法一般從單純音樂信息入手去尋找線索,對音樂數(shù)據(jù)進行分割,樂器數(shù)據(jù)中所包含的信息不能得到應(yīng)用[21];在許多情況下,單純使用音樂分割方法進行音樂分析是非常困難的,如果能將樂器信息利用起來無疑可以大大提高音樂數(shù)據(jù)分割效率和精度。由于樂器在音頻部分占有很大的比重,如果可以將樂器分析和識別的技術(shù)與音樂分析技術(shù)相結(jié)合,那么將可為整個音樂數(shù)據(jù)的分割、檢索帶來極大便利。目前這個研究方向已經(jīng)成為了一個研究熱點,盡管如此,目前大多數(shù)的研究成果只是將樂器分析技術(shù)簡單地用于音樂分析,而沒有做到將樂器分析技術(shù)和音樂分析技術(shù)有機結(jié)合。如何將樂器分析技術(shù)與音樂分析技術(shù)進行完美結(jié)合已成為這個研究方向所面臨的主要難題之一。
另一方面,樂器識別的復(fù)雜度比語音識別、音樂分析等問題更為復(fù)雜,目前的研究對象都只是單一的樂器和固定的樂器識別算法,如何從單純樂器演奏的識別到混合樂器演奏的識別,是今后更具實用性的研究方向。如何識別出多樂器混合演奏的所有樂器,以及研究出能夠識別更多識別率更高的樂器識別算法,是今后該領(lǐng)域的另一重要研究方向。我們未來的工作將針對上述問題展開研究。
[1]Bozena Kostek.Musical instrument classification and duet analysis employing music information retrieval techniques[J].Proceedings of the IEEE,2004,92(4):712-729.
[2]Herrera P,Peeters G,Dubnov S.Automatic classification of musical instrument sounds[J].Journal of new music research,2003,32(1):3-21.
[3]Arie A.Livshin,Xavier Rodet.Musical instrument identification in continuous recordings[J].Proceedings of the 7th international conference on digital audio effects(DAFX 04),2004:5-8.
[4]Wold E,Blum T,Keislar D,et al.Content- based classification,search,and retrieval of audio[J].IEEE Multimedia,1996,3(3):27 -36.
[5]Eronen A.Comparison of features for musical instrument recognition[J].IEEE workshop on the application of signal processing to audio and acoustics,2001:19 -22.
[6]Krishna A G,Sreenivas T V.Music instrument recognition:from isolated notes to solo phrases[J].Proceedings of the IEEE international conference on acoustics,speech,and signal processing,2004,4:265 -268.
[7]Christopher J C,Burges.A tutorial on support vector machines for pattern recognition[J].Journal of data mining and knowledge discovery,1998,2(2):121-167.
[8]Keith Dana Martin.Sound - source recognition:A theory and computational mode[J].Phd Thesis,Massachusetts institute of technology,1999.
[9]Eronen A,Klapuri A.Musical instrument recognition using cepstral coefficients and temporal features[J].Proc of the IEEE international conference on acoustics,speech and signal processing,2000,2:753 -756.
[10]Agostini G,Longari M,Pollastri E.Music instrument timbres classification with spectral features[J].IEEE 4thworkshop on multimedia signal processing,2001:97-102.
[11]Antti Eronen.Automatic musical instrument recognition[J].Master’s thesis,Tampere university of technology,2001.
[12]Fragoulis D K,Avaritsiotis J N,Papaodysseus C N.Timbre recognition of single notes using an ARTMAP neural network.Proceedings of the 6thIEEE[J]international conference on electronics,circuits and Systems,1999,2:1009 -1012.
[13]Bertrand David,Gael Richard.Efficient musical instrument recognition on solo performance music using basic features[J].Proceedings of the 25th international conference:Metadata for audio,2004:2-5.
[14]張奇,蘇鴻根.基于支持向量機的樂器識別方法[J].計算機工程與應(yīng)用,2004,18:99-101.
[15]劉雅琴,智愛娟.幾種語音識別特征參數(shù)的研究[J].計算機技術(shù)與發(fā)展,2009,19(12):67-70.
[16]Fragoulis D,Papaodysseus C,Exarhos M,et al.Automated classfication of piano - guitar notes[J].IEEE transaction on audio,speech,and language processing,2006,14(3):1040-1050.
[17]Brown J C,Houix O,McAdams S.Feature dependence in the automatic identification of musical woodwind instruments[J].Journal of the acoustical society of America,2000,109(3):1064-1072.
[18]Martin K D,kim E Youngmoo.Musical instrument identification:a pattern recognition approach[J].Journal of the acoustical society of A-merica,1998,104(3):1768-1776.
[19]Marques J,Moreno P J.A study of musical instrument classification using gaussian mixture models and support vector machines[J].Technical Report,Cambridge research labs,1999.
[20]吳飛,莊越挺,潘云鶴.基于增量學(xué)習(xí)支持向量機的音頻例子識別與檢索[J].計算機研究與發(fā)展,2003,40(7):950-955.
[21]Kitahara T,Goto M,Okuno H G.Music instrument identification based on F0-dependent multivariate normal distribution[J].Proceedings of the international conference on acoustics,speech,and signal processing,2003,5:421 -424.