劉遵雄,許金鳳,曾麗輝
(華東交通大學(xué)信息工程學(xué)院,江西南昌 330013)
經(jīng)典的Logistic回歸(Logistic Regression,LR)是一種統(tǒng)計(jì)分析方法,根據(jù)一個(gè)或多個(gè)連續(xù)性或?qū)傩孕偷淖宰兞縼矸治龊皖A(yù)測(cè)0/1二值型因變量的多元量化分析方法,屬于概率型非線性回歸。與線性回歸不同,LR是一種非線性模型,普遍采用的參數(shù)估計(jì)方法是最大似然估計(jì)法??梢宰C明,在隨機(jī)樣本條件下,LR模型的最大似然估計(jì)具有一致性、漸進(jìn)性和漸進(jìn)正態(tài)性[1]。LR模型所用假設(shè)簡單,不要求滿足誤差分布趨于正態(tài)分布的假設(shè),也不要求自變量符合正態(tài)分布的條件,模型對(duì)識(shí)別變量的分布未作任何要求;能用于因變量二值的判別并計(jì)算出其歸屬的概率,而且可以給出判別結(jié)果在概率意義上的解釋。目前,該方法已廣泛應(yīng)用于經(jīng)濟(jì)、社會(huì)科學(xué)以及醫(yī)學(xué)等諸多科學(xué)領(lǐng)域。
LR通過二元取值,直接利用樣本所屬類別的后驗(yàn)概率來進(jìn)行分類[2]。由于采用的是線性模型,所以對(duì)概率估計(jì)的精度有限,因此一些學(xué)者利用SVM中的核技巧手法將經(jīng)典的Logistic回歸(Logistic Regression,LR)推廣到RKHS(Reproducing Kernel Hilbert Space)空間從而得到非線性的核Logistic回歸(Kernel Logistic Regression,KLR)[3-4],以提高概率估計(jì)的精度。
音頻自動(dòng)分類是解決音頻結(jié)構(gòu)化問題和提取音頻內(nèi)容語義的重要手段之一,是當(dāng)前基于內(nèi)容的音頻檢索領(lǐng)域的研究熱點(diǎn)。目前,該領(lǐng)域的研究重點(diǎn)主要在以下兩個(gè)方面:音頻特征分析與抽取以及分類器的設(shè)計(jì)。在音頻分類的問題上,國內(nèi)外的研究人員進(jìn)行了大量的研究。為了提高分類精度,研究者們提出了不同的分類方法,包括最近鄰準(zhǔn)則(NN),支持向量機(jī)(SVM),高斯混和模型(GMM),神經(jīng)網(wǎng)絡(luò),隱形馬爾科夫模型(HMM)[5-10]等。上述方法處理的分類問題比較單一,通常只是對(duì)語音、音樂及環(huán)境音等進(jìn)行分類,在簡單的分類中分類精度比較滿意,但是在相似度較高的音頻信號(hào)例如同類型的樂器音樂等音頻分類精度不高。
本文通過在KLR模型中采用不同的核函數(shù)、線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù),建立多類KLR模型[11]。通過對(duì)弦樂器中小提琴、中提琴、大提琴的音樂信號(hào)進(jìn)行特征提取,運(yùn)用多類KLR模型進(jìn)行分類試驗(yàn),從而實(shí)現(xiàn)對(duì)同類別樂器信號(hào)的辨識(shí)。使用傳統(tǒng)的LR多分類模型和SVM進(jìn)行對(duì)比試驗(yàn),比較算法之間的分類性能差別。
在音頻分類中,所選取的特征應(yīng)該能充分刻畫音頻在時(shí)域和頻域上的重要分類特性[12],對(duì)環(huán)境的改變具有魯棒性和一般性。
一般來說,音頻特征提取是基于兩種不同的時(shí)間長度:一種是基于音頻幀(audio frame)的特征提取,時(shí)間為幾十毫秒;另一種是基于音頻段(audio clip)的特征提取,持續(xù)時(shí)間一般是幾秒。本文通過將原始的音頻信號(hào)切分成每3 s的音頻段,然后將音頻段通過加23.21 s(512個(gè)采樣點(diǎn))的漢寧窗(hanning)處理形成音頻幀(audio frame),幀間重疊25%。計(jì)算每一幀的傅里葉變換系數(shù)F(ω)和頻域能量E。然后對(duì)每一音頻幀進(jìn)行特征提取,最后再根據(jù)所獲得的幀層次上的特征來計(jì)算音頻段層次上的特征,從而獲得一個(gè)長度為3 s音頻樣本的特征數(shù)據(jù)集。
本文選擇的音頻幀(frame)上的特征:
(3)關(guān)鍵子帶能量比(Critical Sub-band Power Ratios):在頻域中劃分子帶區(qū)間,選取部分關(guān)鍵子帶區(qū)間。關(guān)鍵子帶能量比定義為每個(gè)關(guān)鍵子帶的能量對(duì)數(shù)值與整個(gè)音頻幀的能量對(duì)數(shù)值之比。
基于音頻段(audio clip)上的特征:
(1)子帶能量比均值定義為片段(clip)中每個(gè)關(guān)鍵子帶能量比的均值。
(2)帶寬均值與方差定義為clip中各個(gè)幀的帶寬均值。
(3)頻譜中心均值和方差定義為clip中亮度均值和方差。
在Logistic回歸中,我們用一個(gè)線性函數(shù) f(X)=βTX+β0去估計(jì) f(X)。
由此得到后驗(yàn)概率i=1
加入正則化項(xiàng)后(為避免訓(xùn)練數(shù)據(jù)的過擬合,加入懲罰項(xiàng)以防止估計(jì)參數(shù) β出現(xiàn)較大的波動(dòng)),得到最小化下面的目標(biāo)泛函:
在核Logistic回歸中,樣本概率估計(jì)的負(fù)對(duì)數(shù)似然可以寫成:
λ為平衡回歸函數(shù)光滑性與損失函數(shù)的系數(shù)(正則化項(xiàng)的參數(shù))。求解回歸參數(shù)是一個(gè)無約束的凸優(yōu)化問題,利用Newton-Raphson規(guī)則解等式,得到回歸參數(shù) αnew:
P是擬合概率向量,它的第i個(gè)元素是P(αold,Xi),W是N×N權(quán)重矩陣,對(duì)角線上元素為 P(αold,Xi)(1-P(αold,Xi))。
本文從標(biāo)準(zhǔn)樂器錄音數(shù)據(jù)庫[14]中獲取三類樂器原始音樂信號(hào)樣本:小提琴、中提琴和大提琴。所有原始音頻樣本均為單聲道,采樣頻率為44.1 kHz,精度為16位,AIFF格式。利用音頻格式轉(zhuǎn)換軟件轉(zhuǎn)化為WAV格式后,將原始音頻樣本在時(shí)域上分割成每3 s的片段(clip),每個(gè)類別獲得100個(gè)音頻片段,共300個(gè)音頻信號(hào)樣本。再對(duì)每段加23.21(512個(gè)采樣點(diǎn))的漢寧窗(hanning)形成幀,幀間重疊25%。
選取clip中每一音頻幀中的22個(gè)關(guān)鍵子帶,獲得各個(gè)子帶的子帶能量比,然后基于幀層次上計(jì)算音頻段中22個(gè)關(guān)鍵子帶能量比均值和標(biāo)準(zhǔn)差共44維特征;根據(jù)每一幀的頻率和帶寬,然后計(jì)算音頻段上的頻率均值和標(biāo)準(zhǔn)差,帶寬均值和標(biāo)準(zhǔn)差共4維向量,最終構(gòu)建48維的分類特征數(shù)據(jù)集。
最終實(shí)驗(yàn)特征數(shù)據(jù)集組成如表1所示。
表1 音頻實(shí)驗(yàn)數(shù)據(jù)集組成
本文在Matlab平臺(tái)下,使用核Logistic回歸模型對(duì)上述特征數(shù)據(jù)集進(jìn)行分類仿真實(shí)驗(yàn),為評(píng)價(jià)本文算法提出的有效性使用傳統(tǒng)的Logistic回歸和支持向量機(jī)SVM完成相同的音頻分類任務(wù)。其中核Logistic回歸和SVM中核函數(shù)分別選擇線性核、多項(xiàng)式核和RBF核進(jìn)行實(shí)驗(yàn)。
通過大量實(shí)驗(yàn)統(tǒng)計(jì),在核Logistic回歸和SVM中多項(xiàng)式核函數(shù)參數(shù)均取d=2;logistic回歸中RBF核函數(shù)的參數(shù)取σ=2,正則化項(xiàng)參數(shù)λ=1E-5;SVM中RBF核函數(shù)的參數(shù)σ=2,懲罰因子λ=1E-2。
本文采用分類準(zhǔn)確度評(píng)價(jià)分類器的性能。其定義如下:分類準(zhǔn)確率=分類正確的樣本數(shù)/樣本總數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同分類器下的分類準(zhǔn)確率 %
從實(shí)驗(yàn)結(jié)果來看,應(yīng)用核Logistic回歸算法建立的分類模型分類性能良好,準(zhǔn)確度均在90%以上。分析表1中數(shù)據(jù),可以得到如下結(jié)論:(1)在訓(xùn)練樣本尺寸相同時(shí),KLR算法的分類準(zhǔn)確率要高于支持向量機(jī)(SVM)和傳統(tǒng)的LR回歸。(2)三類算法在訓(xùn)練樣本尺寸增加的情況下,分類準(zhǔn)確度隨之提高。(3)總體看來,KLR和SVM中選取RBF核函數(shù)時(shí),分類準(zhǔn)確率和穩(wěn)定性要高于選擇線性核函數(shù)和多項(xiàng)式核函數(shù)。
三類算法的準(zhǔn)確度的曲線如圖 1所示,其中KLR和SVM中的核函數(shù)均選擇RBF核函數(shù)。
在訓(xùn)練樣本尺寸不同的情況下,KLR算法的分類性能始終優(yōu)于或等于LR算法,因?yàn)樵贙LR算法將廣義線性模型LR擴(kuò)展為RKHS空間的非線性模型,較好的解決了在特征空間中相似度較大音頻樣本線性不可分的問題。KLR算法分類性能與SVM相比,在每個(gè)類別的訓(xùn)練樣本尺寸為50時(shí),二者的分類性能相等,只有在訓(xùn)練樣本尺寸為70時(shí)SVM的分類準(zhǔn)確度要高于KLR,KLR通過學(xué)習(xí)能給出樣本所屬類別在概率意義上的解釋,更具實(shí)際意義。
圖1 三種分類算法的準(zhǔn)確度曲線圖
本文使用核Logistic回歸(KLR)算法進(jìn)行音頻分類。利用對(duì)樣本數(shù)據(jù)的后驗(yàn)驗(yàn)概率估計(jì)判定樣本所屬的類別,并對(duì)三類弦樂器音頻信號(hào):小提琴、大提琴、中提琴進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:KLR算法分類的誤差明顯小于傳統(tǒng)的LR算法和SVM算法,取得了較為滿意的分類準(zhǔn)確度。
在KLR中,由于其解不存在稀疏性,意味著計(jì)算新樣本后驗(yàn)概率時(shí)需要所有的訓(xùn)練樣本參與運(yùn)算,計(jì)算量較大,這樣就限制了KLR在大規(guī)模數(shù)據(jù)集中的應(yīng)用。下一步的工作是對(duì)KLR解的稀疏性問題進(jìn)行研究。
[1]王濟(jì)川,郭志.Logistic回歸模型方法與應(yīng)用[M].北京:高等教育出版社,2001.
[2]HASTIE T,TIBSHIR ANI R,FRIEDMAN J.The Elements of Statistical Learning:Data Mining,Inference,And Prediction[M].Berlin:Springer Verlag,2002.
[3]JAAKKOLA T S,HAUSSLER D.Probabilistic Kernel RegressionModels[C]//Proceedings of the Conference on AI and Statistics.San Francisco.USA:Morgan Kaufmann,1999:99-108.
[4]OTH V.Probabilistic Discriminative Kernel Classifiers for Multi-class Problems,Lecture Notes in Computer Science[R].London,UK:Springer Verlag,2001:246-253.
[5]WOLD E,BLU M T,KEISLAR D,et al.Content-based classification,search and retrieval of audio[J].IEEE Multimedia Magazine,1996,3(3):27-36.
[7]MUBARAK O M,AMBIKAIRAJAH E,EPPS J.Novel Features for Effective Speech and Music Discrimination[C]//Proc of the IEEE Int'l Conf on Engineering of Intelligent Systems.2006:22-23.
[8]盧堅(jiān),陳毅松,孫正興,等.基于隱馬爾可夫模型的音頻自動(dòng)分類[J].軟件學(xué)報(bào),2002,13(8):1 593-1 597.
[9]孟永輝,蔣冬梅,付中華,等.一種新穎的語言/音樂分割與分類方法[J].計(jì)算機(jī)工程與科學(xué),2009,31(4):106-109.
[10]MAR QUES J,MORENO P J.A Study of Musical Instrument Classification Using Gaussian Mixture Models and Support Vector Machines[R].COMPAQ:Cambridge Research Laboratory,1999.
[11]HASTIE T,TIBSHIRANI R.Classification by pairwise coupling[J].Ann Statist,1998,26(2):451-471.
[12]AUCOUTURIER J,PACHET F,SANDLERM.“ The way it sounds” :timbre models for analysis and retrieval of music signals[J].IEEE Transactions onMultimedia,2005,7(6):1-8.
[13]李濤,王俊普,吳秀清,唐金輝.后驗(yàn)概率估計(jì)及其應(yīng)用:基于核Logistic回歸的方法[J].模式識(shí)別與人工智能,2006,19(16):589-695.
[14]FRITTS L.Musical Instrument Samples[DB/OL].[2009-12-26],http://theremin.music.uiowa.edu/.