陳 峰,黃紹平,何冬康,肖立光
(1.湖南工程學(xué)院 電氣信息學(xué)院,湘潭 411101;2.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500)
參 考 文 獻
?
EMD近似熵與支持向量機在音頻分類處理中的應(yīng)用
陳 峰1,黃紹平1,何冬康2,肖立光1
(1.湖南工程學(xué)院 電氣信息學(xué)院,湘潭 411101;2.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500)
將動物聲音作為音頻源,針對家養(yǎng)動物聲音的非線性、非平穩(wěn)特征和在現(xiàn)實條件下難以獲取大量動物聲音樣本的實際情況, 提出一種經(jīng)驗?zāi)B(tài)分解(EMD )近似熵(ApEn)結(jié)合支持向量機(SVM)的家養(yǎng)動物聲音分類識別方法.通過EMD方法將非平穩(wěn)的動物聲音信號分解成若干個平穩(wěn)的固有模態(tài)函數(shù)(IMF); 對IMF進行篩選,計算所篩選IMF 的近似熵構(gòu)成特征向量;將特征向量輸入SVM 分類器進行分類識別.對家養(yǎng)動物聲音樣本按該方法進行測試,結(jié)果表明,該方法能有效提取聲音特征,在小樣本情況下也具有較高的精度和較強的泛化能力,該方法能有效地應(yīng)用于動物聲音的識別分類.
經(jīng)驗?zāi)B(tài)分解;近似熵;支持向量機;音頻分類
聲音信號是一種非常重要的音頻信號,它本身包含了各種各樣的信息.通過對聲音的分類處理可以獲得這些信息.研究人員提出了各種音頻信號分類處理和識別方法:基于神經(jīng)網(wǎng)絡(luò)的音頻分類技術(shù)[1];基于支持向量機(SVM)的音頻分類技術(shù);基于高斯混合模型(GMM)的音頻分類和識別技術(shù);基于隱馬爾可夫模型(HMM)的語音識別技術(shù)[2].
本文將家養(yǎng)動物聲音作為音頻源,提出了一種家養(yǎng)動物聲音分類識別方法.首先利用EMD將原始信號分解成有限個IMF分量,將非平穩(wěn)的聲發(fā)射信號轉(zhuǎn)變?yōu)槠椒€(wěn)信號,然后對IMF分量建立近似熵模型,并將模型參數(shù)組成特征向量,最后利用SVM對家養(yǎng)動物聲音信號進行分類.
1.1 EMD方法原理
EMD方法分解步驟如下:
(1)求出上下包絡(luò)線的均值m1(t),上下包絡(luò)線上含有信號x(t)所有的局部極值點,它是通過三次樣條線將局部極小值、局部極大值連接起來形成.
(2)用原始數(shù)據(jù)序列x(t)減去m1(t),得到一個去掉低頻的新數(shù)據(jù)序列:
h1(t)=x(t)-m1(t)
(1)
根據(jù)IMF必須滿足的2個條件,判斷h1(t)是否為IMF,若h1(t)不是IMF,則將h1(t)作為新的x(t),重復(fù)執(zhí)行步驟(1)和(2),直到h1(t)滿足IMF條件,記c1(t)=h1(t),c1(t)為原始信號中頻率最高的IMF分量.
(3)計算x(t)與c1(t)的殘差 :
r(t)=x(t)-c1(t)
(2)
將r(t)作為新的x(t),重復(fù)步驟(1)和(2)計算過程,依次得到c2(t),c3(t),…直到cn(t)或r(t)滿足給定的終止條件時,篩選結(jié)束.經(jīng)過EMD分解之后的原始信號x(t)被分解為 個基本模式分量和一個殘差的和:
(3)
為了準確有效地把握原始信號的特征信息,需要對IMF分量ci(t)和殘余項r(t)進行合理的分析.殘余分量能夠反映原始信號的中心趨勢,而按照頻率由高到低分解出來的IMF分量c1(t)、c2(t),…,cn(t)能夠突顯出原始信號的局部特征.這兩個分量都是經(jīng)過EMD運算而來.
1.2 近似熵算法
近似熵算法步驟如下:
步驟1:設(shè)原始信號為N點的時間序列u=
[u(1),u(2),…,u(N)],N為數(shù)據(jù)長度,按順序構(gòu)造m維矢量X(i)=[u(1),u(i+1),…,u(i+m-1] 和X(j)=[u(1),u(j+1),…,(j+m-1)],其中i,j≤N-m+1.
步驟2 :計算矢量X(i)和X(j)之間的距離:
d[x(i),x(j)]=
max[|u(i+k-1)-u(j+k-1)|]
k=1,2,…,m
(4)
步驟3:給定閥值r,對于每一個i≤N-m+1統(tǒng)計d[x(i),x(j)]≤r的數(shù)目,計算近似矢量個數(shù)與矢量的比值.
其中j≤N-m+1.
(5)
(6)
步驟5:對m+1,重復(fù)步驟(1) (4),得到φm+1(r).
步驟6:該序列的近似熵值為:ApEn(m,r,N)=φm(r)-φm+1(r)
(7)
顯然,近似熵值與維數(shù)m,閥值r和數(shù)據(jù)值N有關(guān),Pincus等指出,當(dāng)m=2,r-0.1~0.2SD(SD為原始數(shù)據(jù)u(i)標準差) ,近似熵對N依賴最低,具有最合理統(tǒng)計特性.
1.3 支持向量機分類算法
SVM是處理有限學(xué)習(xí)樣本的有效工具.設(shè)線性可分樣本集為(xi,yj)(i=1,2,…,n;x∈Rd,y∈{-1,1} 是類別標號),d維空間中線性判別函數(shù)的一般形式為:g(x)=w·x+b,分類面方程為:
w·x+b=0
(8)
將判別函數(shù)歸一化,然后等比例調(diào)節(jié)系數(shù)w和b,使兩類所有樣本都能滿足|g(x)|≥1,這時分類器間隔為2/‖w‖.這樣將求間隔最大變?yōu)榍蟆瑆‖最小.
滿足‖g(w)‖的樣本點,離分類線(平面)距離最小.它們決定了最優(yōu)分類線(平面),稱之為支持向量,最優(yōu)分類面的問題即轉(zhuǎn)化為優(yōu)化問題:
s.t.yi[(w·xi+b)]-1≥0,(i=1,2,…,n)
(9)
(10)
為敘述和求解的方便,將上式改寫成矩陣形式:
s.tαi≥0,(i=1,2,…,n)
(11)
yTα=0
其中,
α=(α1α2,…,αn)T,b=(1,1,…,1)T,
y=(y1,y2,…,yn)
Aij=yiyj(xi·xj)
由此可得到最優(yōu)分類函數(shù)為:
(12)
因為對于非支持向量滿足αi=0,所以最優(yōu)函數(shù)只需對支持向量進行,而b*可根據(jù)任何一個支持向量的約束條件求出.支持向量機的體系結(jié)構(gòu)如圖1所示.
圖1 支持向量機的體系結(jié)構(gòu)
實驗用到的家養(yǎng)動物聲音主要來自文獻[3-4],將每個聲音文件轉(zhuǎn)換為采樣率為11025 Hz,聲道數(shù)為l的WAV格式,然后再把它們分割成間隔為3 s的聲音片段,最后得到的聲音數(shù)據(jù)庫如表1所示.
表1 家養(yǎng)動物聲音數(shù)據(jù)庫
3.1 動物聲音信號的預(yù)處理
以田園犬和蘆花雞聲音信號為例,采用時間局部性好, 能量集中度高的db6 小波對其預(yù)處理, 消噪前后的太湖鵝、田園犬和蘆花雞聲音信號分別如圖2、圖3和圖4所示.
圖2 原始太湖鵝聲音信號和消澡后的太湖鵝聲音信號
圖3 原始田園犬聲音信號和消澡后的聲音信號
圖4 蘆花雞聲音信號和消澡后的聲音信號
3.2 聲音信號的特征提取
對經(jīng)小波消噪的動物聲音信號采用EMD方法分解得到n重IMF分量Ci(r)(i= 1,2,…,n),每個IMF分量都包含了不同的特征尺度信息,如小波消噪后的太湖鵝、田園犬和蘆花雞聲音信號經(jīng)EMD分解后分別得到7個IMF分量和一個殘余分量,如圖5、圖6和圖7所示.
圖5 太湖鵝聲音信號EMD分解
圖6 田園犬聲音信號EMD分解
圖7 蘆花雞聲音信號EMD分解
分別對上述9類家養(yǎng)動物進行EMD分解,并計算前5個IMF分量的近似熵,表2為其中每類家養(yǎng)動物的其中3種動物IMF分量的近似熵,讓其作為SVM的輸入特征向量記為X=X(x1,x2,x3,x4,x5).
表2 家養(yǎng)動物聲音信號近似熵
表2中,馬類和牛類的聲音信號近似熵極為相似,但各IMF分量的近似熵情況卻并不一樣,我們可以清楚地看到IMF4 ,IMF5特征分量與第一個分量相差較明顯,即此分辨率對信號本質(zhì)特性的反映非常明顯,說明此分量上的平穩(wěn)性非常顯著.
3.3 支持向量機識別網(wǎng)絡(luò)
本文選用二叉樹SVM為分類器,因為它的優(yōu)勢是重復(fù)訓(xùn)練樣本少[5].IMF1-IMF5 的近似熵值為二叉樹SVM訓(xùn)練網(wǎng)絡(luò)的輸入向量,向量X=(X1,X2,X3…,X9)9種相對應(yīng)的輸出類型y為1,2,3,…,9,建立8個分類器按最優(yōu)分類函數(shù)進行分類.要選好徑向基核函數(shù)(Radial basic function, RBF),因為核函數(shù)的好壞直接影響分類器的性能.徑向基核函數(shù)決定模型的復(fù)雜性和訓(xùn)練誤差主要是兩個參數(shù),Gamma和懲罰因子C.驗證Gamma和懲罰因子C這兩個參數(shù)的性能非常重要,本文采用舍一交叉驗證法(n-fold cross validation),目的就是為了得到最優(yōu)的分類器.具體的做法是,針對每一個參數(shù)對(Gamma,C),交叉驗證差不多進行20次,而該參數(shù)對的指標就取這20次測試結(jié)果的平均值.最終的最優(yōu)參數(shù)對訓(xùn)練分類器就采用指標最高的一組參數(shù)對,然后再測試未知樣本.按照上述方法進行試驗,發(fā)現(xiàn)分類準確率達到最高時的參數(shù)對(Gamma ,C)為(2,2).
為驗證方法的有效性,對包含9種家養(yǎng)動物聲音信號的2760個樣本.將他們建立模型,進行訓(xùn)練.具體做法是對每組數(shù)據(jù)進行EMD分解,并求取前5個分量的近似熵,作為SVM訓(xùn)練網(wǎng)絡(luò)的輸入向量,建立起我們需要的模型.測試二叉樹SVM分類器就是訓(xùn)練過程中采用測試集樣本數(shù)比例和訓(xùn)練集樣本數(shù)不同的兩種方案,為了提升結(jié)果的準確性,需對實驗重復(fù)20遍后取均值.實驗軟件平臺為Microsoft windows XP下的Matlab7.1版本,算法運行時間是通過Matlab程序提供的'tic.toc'獲得.取每類樣本特征向量中的40組作為訓(xùn)練樣本,余下20組作為測試樣本,即1840組特征向量用于訓(xùn)練并構(gòu)建分類器,另外920組用于測試分類器準確性;訓(xùn)練分類器時,選用徑向基核函數(shù),gamma參數(shù)為0.015,懲罰因子C為2.SVM,訓(xùn)練樣本如圖8所示[6].
圖8 SVM訓(xùn)練樣本
提出將基于EMD 近似熵理論與SVM分類模型相結(jié)合的家養(yǎng)動物聲音分類識別問題, 經(jīng)實驗研究得出以下結(jié)論:
(1)SVM網(wǎng)絡(luò)建模具有建模簡單,模型更加精確等優(yōu)點.
(2) EMD 算法能自適應(yīng)地將非平穩(wěn)信號逐級分解,且各IMF分量體現(xiàn)原數(shù)據(jù)的局部特征,實現(xiàn)家養(yǎng)動物類型特征的分離,從而能有效地反映聲音信號的本質(zhì)信息.
(3) 近似熵具有很強的表征信號不規(guī)則性和復(fù)雜性的能力,通過比較EMD分解各IMF分量的近似熵,可以得到不同動物類型信號在不同尺度下變化的不規(guī)則性,從而有效地提取動物類別特征,為聲音識別分類提供依據(jù).
參 考 文 獻
[1] Freeman G,Dony R D,Areibi S M.Audio Environment Classication for Hearing Aids Using Artificial Neural Networks with Windowed Input[C]//Computational Intelligence in Image and Signal Processing,2007:183-188.
[2] Nakamura S,Kumatani K,Tamura S.Multi-modal Temporal Asynchronicity Modeling by Product HMMs for Robust Audio-visual Speech Recognition[C]//Proceedings of the 4th IEEE International Conference on Multimodal Interfaces,2002:305-309.
[3] Sound net of Princeton University[EB/OL].http://soundnet.cs.Princeton.edu/OMLA/.
[4] The Freesound Project[EB/OL].http://www.freesound.org/index.php.
[5] 朱學(xué)冬,胡 平. 基于最優(yōu)二叉樹的多故障分類器的設(shè)計[J].北京聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2009,23(2):26-29.
[6] 宋知用.MATLAB在語音信號分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:53-59.
Application of EMD Approximate Entropy and Support Vector Machine Method in Processing Audio Classification
CHEN Feng1,HUANG Shao-ping1, HE Dong-kang2, XIAO Li-guang1
(1.College of Elect.&Information Engineering,Hunan Institute of Engineering,Xiangtan 411101, China;2.Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China)
In this paper, animal sounds are used as the audio source. According to the non-stationary and non-linear characteristics of domesticated animal voice and the situation in which it`s hard to obtain enough sound samples,a domesticated animal voice diagnosis method based on Empirical Mode Decomposition(EMD), Approximate Entropy(ApEn),and Support Vector Machine(SVM) is proposed. Firstly, the domesticated animal signals are decomposed into a finite number of intrinsic mode function(IMF).Then, the ApEns of five IMFs filtered are used to form eigenvectors. Finally, the eigenvectors are put into a support vector machine categorizer . The results of animal data experimental recognition show that this method has high accuracy and good generalization abilities even in the case of small number of samples.The approach proposed can identify the domesticated animal voice effectively.
Empirical Mode Decomposition(EMD); Approximate Entropy(ApEn); Support Vector Machine(SVM); audio classification
2015-03-31
陳 峰(1990-),男,碩士研究生,研究方向:電力電子與電力傳動.
TP273+.5
A
1671-119X(2015)03-0001-05