梅鐵民,路瑞茜
(沈陽理工大學 自動化與電氣工程學院,沈陽 110159)
?
一種音頻分類算法
梅鐵民,路瑞茜
(沈陽理工大學 自動化與電氣工程學院,沈陽 110159)
在綜合分析了不同音頻信號的有效區(qū)別性特征后,根據(jù)低能量幀率和子帶能量在不同音頻信號中的特征,對音頻信號分類算法進行了研究。提出了一種綜合利用低能量幀率和子帶能量比的音頻信號分類算法。通過仿真和實驗,對連續(xù)噪聲信號、音樂信號、語音信號進行了分類,結果證明該算法具有較好的分類效果。
音頻分類;低能量幀率;子帶能量比
不同音頻信號具有明顯不同的信號特征,音頻信號分類就是根據(jù)這些特征對一段包含多種不同聲音(如語音、音樂、噪聲等)的錄音信號進行分門別類,從而可以對不同聲音實現(xiàn)快速檢索、識別等工作,因此它在音頻檢索、語音文本轉換、語音識別等方面有著重要應用。在這些應用中,音頻分類作為音頻信號的一種預處理手段,它的準確性和可靠性直接影響著后續(xù)工作能否順利進行以及工作效率的高低。當前的音頻信號分類方法大多采用基于各種音頻信號的不同特征值的分類模式進行分類,常用的特征值有低過零率、低能量幀率、子帶能量比、功率譜、倒譜、梅爾頻率倒譜系數(shù)等[1-3]。然而這些方法的可靠性和準確率有待提高,此外,有些技術由于計算量大,不具備實時性。
文中通過分析音頻信號的時域及頻域特征,選取低能量幀率、子帶能量比這兩個特征進行進一步綜合分析。在文獻[4]的基礎上,文中采用較好的子帶劃分方法,進行子帶能量比的計算,得到更明顯的音頻類別的區(qū)分特征,實現(xiàn)音頻信號的有效實時分類。所選取的特征參數(shù)具有計算量小、結果直觀可見,且算法具有簡單容易理解的特點。
通常情況下語音信號不能用處理平穩(wěn)信號的信號處理方法進行處理,因為其特征參數(shù)是時變的、非平穩(wěn)的,但是語音信號具有短時平穩(wěn)特性,即在一個短時間內是相對穩(wěn)定的?;谶@個特性常采用分幀[5]的方法對語音信號進行分析,所謂分幀就是通過加窗的方法將信號分成若干個小段(通常為10~30ms,本文為20ms),每小段為一幀。對每一幀信號進行分析計算得到相應的特征參數(shù)序列,從宏觀上可得到整段音頻信號的特征。
基于發(fā)聲特點和說話特點,語音信號通常具有短暫的靜音區(qū)間,使得語音信號具有較高的低能量幀率。音樂信號相比較來說比語音信號連續(xù)很多,有較低的低能量幀率。噪聲信號通常是連續(xù)的,其低能量幀率最低。文中首先根據(jù)三類音頻的這一特征,利用低能量幀率進行算法的第一步計算。
音頻信號在頻域上可以劃分成若干個子帶,不同的音頻信號在每個子帶上的能量分布有所不同。其中語音信號主要分布在低頻區(qū),音樂信號和噪聲信號分布的頻域范圍較寬廣,即語音信號能量主要在第一子帶,音樂信號能量在第一子帶的分布較少,噪聲信號在各個子帶有較均勻的分布。因此,在將信號進行子帶劃分以后子帶能量比的比值也是將音頻信號分類的一個特征。
1.1 短時能量
短時能量[6]即一幀信號的能量值,其計算公式為
(1)
式中:x(n)為輸入音頻信號;n表示第n幀音頻信號;w(n)為窗函數(shù);h(n)=w2(n);E(n)表示所計算信號的短時能量值。根據(jù)式(1)可以將短時能量看作是語音信號平方后通過一個線性濾波器輸出的值,該濾波器的單位沖激響應為h(n),線性濾波過程如圖1所示。
圖1 語音信號線性濾波過程
實驗中,選擇三種不同類型的音頻信號進行比較和分析,分別是噪聲信號、音樂信號和語音信號。這三種音頻信號的典型短時能量波形圖分別如圖2~圖4所示。
圖2 噪聲信號的短時能量波形圖
圖3 音樂信號的短時能量波形圖
圖4 語音信號的短時能量波形圖
對比圖2~圖4可以看出,噪聲信號的短時能量波動幅度很小,基本維持在其自身能量的較大值范圍內;由于說話特點,語音信號字與字之間存在短暫停頓,因此存在較多的低能量段,若設定一個閾值,則低于該閾值的語音段所占比例較大;音樂信號的短時能量波動范圍在兩者之間,若設定一個閾值,能量低于該閾值的時間比例相比較語音信號明顯較少。由圖2~圖4可以明顯看出三者的短時能量特征。為了更簡單直觀地進行比較和計算,引進了低能量幀率這一概念。低能量幀率用數(shù)字的形式將音頻信號短時能量的波動特點體現(xiàn)出來。
1.2 低能量幀率
在一段音頻信號中,由于能量值的不同,如果設置一個閾值,則能量值低于這個閾值的幀占這段音頻信號總幀數(shù)的比例稱為低能量幀率[7](low energy frame ratio)。低能量幀率是在音頻段上將音頻信號能量的規(guī)律以數(shù)字的形式直觀地表示出來,其計算公式如下:
(2)
式中:N表示該段音頻信號中的幀總數(shù);E(n)表示第n幀的短時能量值;Eavg是計算該片段中幀的總能量后得到的均值;r是閾值系數(shù),可以控制閾值的高低。取rEavg作為閾值的好處是閾值根據(jù)每段信號取不同的值,具有針對性。閾值系數(shù)r取不同值時三種音頻的低能量幀率值如表1所示。
表1 不同閾值下的三種音頻信號的低能量幀率
由表1看出,典型的連續(xù)噪聲信號、音樂信號、語音信號的低能量幀率依次增高。對于同一信號,不同閾值對應的低能量幀率值變化不大。只要閾值選擇合適,可以保證不同音頻信號低能量幀率變化在不同的范圍內,基本互不重合。因此可以利用低能量幀率初步區(qū)分出三類信號,完成算法的第一步。然而,這是針對一般情況的,不能準確確定音頻類型,因此需要進一步用其他特征值進行分析,進而引入子帶能量比。
1.3 子帶能量比
子帶能量比[8]是信號在頻域上分布均勻性的描述。將頻域劃分為若干個子帶,不同的音頻信號因頻率特性的不同,分布情況也會有所不同。語音信號絕大部分能量分布在第一子帶;音樂信號的分布區(qū)域較寬廣,可能大部分能量分布在兩個子帶,甚至因樂器的不同可能分布在第三或第四子帶;連續(xù)白噪聲信號則基本均勻分布在整個頻域范圍內[9]。由于語音信號的短時平穩(wěn)性,將音頻信號進行分段,每一小段取20ms,進行傅里葉變換。進行仿真發(fā)現(xiàn)其頻譜基本在fs/4以內,因此根據(jù)人耳的聽覺特性具有對數(shù)增長的特性,在fs/4頻帶內將頻譜進行非均勻劃分,得到4個子帶sbj(j=1,2,3,4),對四個子帶的頻率區(qū)間分別取[0,ω0/8]、[ω0/8,ω0/4]、[ω0/4,ω0/2]、[ω0/2,ω0],其中ω0=fs/4 。子帶能量比的計算方法如下:
(3)
表2 不同音頻類型的子帶能量比
綜合圖2~圖4和表2數(shù)據(jù)可以看出,連續(xù)噪聲信號的能量在fs/4內的頻域上分布基本均勻;音樂信號的能量在各個子帶都有分布,第一子帶占大部分比重,但相比較而言音樂信號在第二子帶也有一定的能量分布;語音信號的能量幾乎都分布在第一子帶。
在圖5~圖7中給出了三種不同音頻信號的典型功率譜。
圖5 噪聲信號的功率譜密度
圖6 音樂信號的功率譜密度
圖7 語音信號的功率譜密度
實驗中所用測試數(shù)據(jù)共90段音頻,共計150min,其中30段語音信號,30段音樂信號和30段噪聲信號。本文采用的音頻數(shù)據(jù)采樣率為44.1kHz,量化精度為16bit。
本文的算法主要分為兩部分,首先根據(jù)噪聲信號、語音信號和音樂信號的低能量幀率的特點,噪聲信號的低能量幀率明顯低于音樂信號和語音信號,閾值系數(shù)r取值0.5時,根據(jù)表1的數(shù)據(jù),當LER小于0.3的時候判斷該信號為噪聲信號。對于LER大于0.3的部分信號,將閾值系數(shù)r設為0.3,重新計算LER,這時若LER大于0.4,則判斷為語音信號,否則判斷為音樂信號。通過以上步驟,初步對語音和音樂信號進行了分類,但是由于語音和音樂信號有時低能量幀率值不是絕對界限分明的,可能出現(xiàn)混疊的現(xiàn)象,因此需要進行進一步判斷。根據(jù)語音信號和音樂信號頻域能量特性的不同,利用子帶能量比對語音和音樂信號進行分類。對于初步判斷為噪聲的信號再確認是否第一子帶和第二子帶的子帶能量比相差不大于0.2,若滿足該條件則信號為噪聲信號,若不滿足則判別為音樂信號;對初步分類為音樂信號的音頻信號再確認是否滿足第一子帶能量比小于0.9,若滿足則該信號為音樂信號,若不滿足則為語音信號;對初步分類為語音信號的音頻信號確認是否滿足第一子帶的子帶能量比大于0.9,若滿足則該段為語音信號,若不滿足則該段信號為音樂信號。用上述算法對測試數(shù)據(jù)進行分類結果如表3所示。
表3 分類結果
從表3看出,分類具有較好的效果。其中噪聲的分類效果較差,出現(xiàn)漏判的原因是少量噪聲信號中間存在時間間隔,造成低能量幀率較高,加上特定的聲音如掌聲、撞擊聲頻率偏高或偏低會影響判斷效果。音樂信號出現(xiàn)誤判的原因是音樂信號中往往混合著歌聲或其他形式的語音成分,這對音樂信號的準確分類造成了一定的影響。此外,音樂信號由于音樂器材的類型不同,所在頻域范圍不同,信號的特征也存在差異。語音信號出現(xiàn)誤判的原因是語音信號能量值低或語速過快時會導致低能量幀率偏低。可以通過改變閾值(改變閾值系數(shù)r的值)和改變子帶劃分方式的方法提高分類準確率。
分析了音頻信號的時域和頻域特征,選取低能量幀率和子帶能量比兩個特征進行不同音頻的比較從而進行分類。將兩者結合起來,首先用低能量幀率進行初步判斷,低能量幀率很低的是噪聲信號,在不同閾值下低能量幀率值差別大的是音樂信號。然后用子帶能量比進一步分析判斷,分布在低頻區(qū)的是語音信號,分布均勻的是噪聲信號,主要能量在中高頻的是音樂信號。實驗結果表明,本文的算法思路清晰,計算量小,效果較好。
[1]石家瑞.基于內容的音頻檢索[D].天津:天津大學,2002.
[2]Song Y Q,Zhang C S,Lee J G.Semi-supervised discriminative classification with application to tumorous tissues segmentation of MR brain images[J].Pattern Analysis &Applications,2009,12(2):99-115.
[3]吳海霞,李艷玲,劉潞鋒.基于內容和旋律的音頻片段識別與檢索[J].太原師范學院學報,2015,14(2):33-39.
[4]崔玉強.基于內容的音頻分類方法研究[D].武漢:華中科技大學,2007.
[5]趙力.語音信號處理[M].北京:機械工業(yè)出版,2003.
[6]韓紀慶,馮濤,鄭貴濱,等.音頻信息處理技術[M].北京:國防工業(yè)出版社,2007.
[7]吳順妹,許麗靜,許洪光,等.一種基于音調的語音/音樂實時分類算法[J].電聲技術,2010,34(2):66-68.
[8]曹梅雙,曾慶寧,陳芙蓉.基于子帶能量的語音端點檢測方法研究[J].大眾科技,2009,114(2):53-54.
[9]孟永輝,蔣冬梅,付中華,等.一種新穎的語言/音樂分割與分類方法[J].計算機工程與科學,2009,31(4):106-109.
(責任編輯:馬金發(fā))
An Algorithm for Real-time Audio Classification
MEI Tiemin,LU Ruiqian
(Shenyang Ligong University,Shenyang 110159,China)
Audio signal classification plays an important role in audio signal processing,and is an important previous job in many audio signal analysis progress.After a comprehensive analysis of the effective distinguishing features for different audio signals,audio classification research is carried out.A new audio classification algorithm is proposed according to the low-energy frame rate and sub-band energy in the different audio signals.Simulation results show that the proposed algorithm is of low complexity and high classification accuracy.
audio classification;low-energy frame rate;sub-band energy rate
2015-10-16
梅鐵民(1964—),男,教授,博士,研究方向:自適應信號處理。
1003-1251(2016)05-0023-05
TN911
A