陳亮 邵玉斌 龍 華 杜慶治 彭 藝 唐維康
(昆明理工大學信息工程與自動化學院,云南昆明 650500)
在廣播音頻信號中,說話環(huán)境復雜且說話人不同,因而對非特定說話人在復雜環(huán)境中的語種辨識準確率比較低。如何提取有效的語種特征參數(shù)是廣播音頻語種識別的關(guān)鍵。傳統(tǒng)特征參數(shù)包括梅爾頻率倒譜系數(shù)(MFCC)[1-2]、線性預測編碼系數(shù)(LPC)、線性預測倒譜系數(shù)(LPCC)、gammatone 頻率倒譜系數(shù)(GFCC)[3]等、耳蝸倒譜系數(shù)(CFCC)[4]、gammachirp 特征參數(shù)(GCFC)[5]。目前,語種識別方法的研究主要集中在如何提取有效的底層聲學特征,放入對應的模型或神經(jīng)網(wǎng)絡中進行訓練,得到語種識別模型。目前比較常用的是gammatone 頻率倒譜系數(shù)參數(shù),使用gammatone 濾波器代替梅爾濾波器,更好地模擬了人體耳蝸頻率特征,再經(jīng)過離散余弦變換,去除同一幀的不同特征維度之間的相關(guān)性,從而能更好地對特征參數(shù)進行建模,達到較好的識別效果。Gammatone 濾波器[6]在語音信號處理方面,包括說話人識別、語種識別、語音情感識別[7]等方面得到廣泛的應用。文獻[8]提出使用gammatone 濾波器濾波提取GFCC 參數(shù)和加上一階和二階差分的GFCC-D-A 特征用于語種識別,同時也使用GFCC 參數(shù)提取移位差分倒譜(SDC)特征,提高了語種識別的準確率。文獻[9]提出使用融合MFCC 和GFCC 的特征參數(shù)用于說話人識別,加上一階差分和二階差分,取得了比MFCC 和GFCC 更好的說話人識別的識別準確率。文獻[3]提出基于gammatone 時域濾波的說話人識別。文獻[10]研究了經(jīng)過gammatone 時域濾波得到的GFCC 參數(shù)在說話人識別中的抗噪性能。在基于神經(jīng)網(wǎng)絡相關(guān)語種識別算法中,文獻[11]提出基于Senone 的深度神經(jīng)網(wǎng)絡語種識別算法。文獻[12]提出LID-Senone統(tǒng)計特征比Senone 特征能達到更好的語種識別效果。文獻[13]提出使用MFCC 進行DCT 變換之前的參數(shù)(Fbank 參數(shù))畫圖使用LSTM 網(wǎng)絡進行廣播音頻語種識別。文獻[14]提出用Fbank 特征融合MFCC 特征使用x-vector 進行說話人識別,達到較好的識別效果。文獻[15]使用深度神經(jīng)網(wǎng)絡按照音素狀態(tài)進行聚類并結(jié)合深度瓶頸特征(Deep Bottleneck Feature,DBF)進行全差異空間建模,得到較好的語種識別效果。在噪聲環(huán)境下,人們首先會采用一些語音增強算法[16]對語音進行去噪后再進行語種識別。文獻[17]中首先提出了Resnet 神經(jīng)網(wǎng)絡,并在圖像分類方向達到較好的識別效果。針對廣播音頻,傳統(tǒng)的特征提取方法使用傳統(tǒng)分類模型分類效果不理想,而基于神經(jīng)網(wǎng)絡的圖像分類效果較好,將語種提取的特征參數(shù)畫圖使用神經(jīng)網(wǎng)絡進行分類,可以達到較好的分類效果。
本文提出使用GFCC進行DCT變換之前的參數(shù)用于語種識別,用gammatone 時域濾波提取特征參數(shù)。使用歸一化后的gammatone 時域函數(shù)與預處理后的語音信號進行卷積,得到濾波后的信號,再進行分幀加窗,對幀求平方和并取對數(shù),得到時域GF(gammatone filterbank)參數(shù)。與頻域GF 參數(shù)[18]不同的是,時域GF 參數(shù)的濾波過程是在時域進行的。使用VGG19和Resnet34分類網(wǎng)絡進行仿真實驗,結(jié)果表明本文的時域GF 特征語種識別準確率在廣播音頻語料集和VoxForge 公共語料集下均高于傳統(tǒng)的GFCC 特征、GFCC-D-A 特征、GFCC-SDC 特征及Fbank 特征。對語音加信噪比為10 dB、5 dB、0 dB的Noisex-92噪聲庫[19]中的不同噪聲,提取特征參數(shù)畫圖并使用自動色階算法[20]去噪,相比不去噪的識別結(jié)果,語種識別準確率在不同噪聲不同信噪比下均有一定的提升。
本文提出一種gammatone 時域濾波方法。首先構(gòu)建gammatone 時域函數(shù),每個濾波器沖激響應如式(1)所示[3]。gammatone 濾波器組由M個不同中心頻率的濾波器組成。
其中a為增益因子,n為濾波器階數(shù),一般取4就可,fi是第i個濾波器的中心頻率,φ為初相位,取0,U(t)為階躍函數(shù)。bi是第i個濾波器的帶寬,其表達式為:
濾波器中心頻率fi的計算方法如下:
先將濾波器中心頻率范圍frange轉(zhuǎn)換到ERB 刻度上:
然后,將ERBs 范圍均勻地依據(jù)濾波器個數(shù)劃分,得出各濾波器在ERB 刻度上的位置,再反算為對應的頻率點上,從而得出各濾波器的中心頻率fi。
以采樣率fs對式(1)進行離散化,得到離散信號的表達式為:
其中K為gammatone 濾波器函數(shù)的采樣點數(shù),i為濾波器的序號,fs為信號的采樣頻率,本文取16 kHz。
畫出中心頻率為300 Hz 和1 kHz 的gammatone濾波器的離散信號沖激響應和幅頻響應如圖1所示。
由圖1(a)可以看出,中心頻率為300 Hz的gammatone濾波器在第500個采樣點之后幅值基本為0,因此用前面500 個點基本可以代表中心頻率為300 Hz的濾波器函數(shù),其后的信號可以省略。對中心頻率為1 kHz 的gammatone 濾波器在第300 個采樣點之后幅值基本為0,因此用前面300 個點基本可以代表中心頻率為1 kHz 的濾波器函數(shù),其后的信號可以省略。本文信號采樣頻率取16 kHz,濾波器中心頻率范圍frange取50 Hz~8 kHz,綜合來看,對不同中心頻率的gammatone 濾波器,本文均取前面1024個采樣點代表其離散時域函數(shù)。圖1(b)表示中心頻率為300 Hz 和1 kHz 的gammatone 濾波器的幅頻響應,橫軸代表頻率,縱軸代表幅值,兩個濾波器的頻率范圍均為0~8 kHz。不同中心頻率的濾波器沖激響應幅值范圍不同,幅頻響應的曲線走勢不一樣,但幅值等高。
為了提升低頻信號降低高頻信號,對式(1)的gammatone 濾波器時域函數(shù)進行最大值歸一化,其表達式如下:
歸一化后的濾波器幅度頻率響應如圖2 所示。從圖中可以看出,gammatone 時域函數(shù)進行歸一化后,對應的幅頻響應低頻部分被放大,高頻部分幅值被壓縮。
其中x(n)為輸入的語音序列的第n個值,y(n)為經(jīng)過濾波后的語音序列的第n個值。為第i個gammatone 濾波器的離散沖激響應,i為濾波器的序號。N為輸入的語音序列的長度。濾波器個數(shù)為M,將M個濾波器的輸出組合為一個M×N維的數(shù)據(jù)矩陣。
首先對語音信號進行能量歸一化,濾除300 Hz~3400 Hz 以外的信號,并進行預加重。接著用第1 節(jié)描述的gammatone 時域濾波方法對語音信號進行濾波,然后進行分幀加窗,并對每幀信號取平方和,再取對數(shù),得到時域GF 特征參數(shù)。提取流程如圖3所示。
首先對語音信號進行能量歸一化,去除不同語種語音的音量大小對語種識別的影響,表達式如下:
其中,x(n)為輸入的一段語音序列,x1(n)為歸一化后的語音序列。
由于語音的頻率范圍大致為300 Hz~3400 Hz,頻率太低或太高的信號大部分為其他噪聲或干擾信號,所以本文使用4 階巴特沃斯濾波器進行帶通濾波,濾除300 Hz~3400 Hz 以外的信號,排除其他非人聲信號的干擾,從而更好地提取特征。由于巴特沃斯濾波器在邊緣部分有一個過渡帶,在過渡帶內(nèi)的信號無法完全濾除干凈,所以在100 Hz~5500 Hz內(nèi)仍有信號。經(jīng)過濾波后的信號為x2(n)。
接著對語音信號進行預加重、分幀、加窗。為了提升高頻分量,需要對信號進行預加重,減小高頻分量的損失。預加重函數(shù)如式(8)所示。
其中,c為預加重系數(shù),通常取0.97。x3(n)為預加重后的語音序列。
對進行預加重后的語音進行時域濾波。Gammatone 濾波器組的時域沖激響應與輸入的語音信號x3(n)進行卷積,得到時域濾波結(jié)果。濾波過程在分幀前進行,避免了邊緣效應,濾波效果較好。進行時域濾波后,得到M×N維的數(shù)據(jù)矩陣,M為濾波器的個數(shù),N為語音信號的長度。對濾波后的信號進行分幀,加窗,得到M×a×b的三維數(shù)據(jù)矩陣。其中M為濾波器個數(shù),a為分幀的幀長,b為分幀的幀數(shù)。本文分幀的幀長a取512,幀移s取256。
再對每幀信號求平方和,并取對數(shù)。設經(jīng)過第i個濾波器濾波的第p幀的語音信號為yi,p(n),則其表達式為:
其中y1(i,p)為對第i維第p幀的一幀語音信號求平方和并取對數(shù)的值,i=1,2,…,M,p=1,2,…,b。最后得到時域GF特征參數(shù),其矩陣維度為M×b維。
本文研究純凈語音和信噪比在0 dB~10 dB 范圍內(nèi)不同噪聲情況下使用去噪算法去噪后的語種識別。設帶噪語音為:
其中x2(n)為歸一化并經(jīng)過巴特沃斯帶通濾波得到的無噪的語音信號,w(n)為噪聲信號。則平均信噪比定義為:
對語音分別加信噪比為10 dB、5 dB、0 dB 的Noisex-92 噪聲庫[19]中的white 噪聲、pink 噪聲、factory 噪聲、babble 噪聲,提取特征參數(shù)畫出圖像,并使用圖像去噪算法去除部分噪聲后進行訓練識別。
對語音信號加噪聲后,使用歸一化后的gammatone 時域函數(shù)提取時域GF 特征參數(shù)。并將圖像的每個通道中像素較暗的一定比例的值令為0,將每個通道中像素較亮的一定比例的值令為1,對圖像剩余像素值進行線性映射,并按比例對剩下的像素值進行重新分配,稱為自動色階算法[20]。
對語音分別加信噪比為10 dB、5 dB、0 dB 的pink 噪聲,提取特征參數(shù)畫出圖,并分別使用自動色階算法去噪,加噪和去噪后的時域GF 特征畫出的圖如圖4所示。
圖4 中左邊為pink 噪聲下不同信噪比的時域GF 特征圖,右邊為使用自動色階算法去噪后的時域GF 特征圖。圖中白色較亮的部分包含語音的聲調(diào)和共振峰信息,灰色較暗部分大部分為噪聲信息。對比圖4 中左邊加不同信噪比pink 噪聲的時域GF 特征圖,可以看出,加噪的GF 參數(shù)部分語音信息被噪聲淹沒,信噪比越低可觀察到的語音信息越少。圖4 中右邊的圖像為使用自動色階算法去噪后的時域GF 特征圖,對比圖4 左邊的圖像發(fā)現(xiàn),大部分噪聲被去除,保留了部分較亮的語音信息,圖像的對比度增強了。但信噪比較低時,隨著噪聲被去除,一部分語音信息也被去除了。左邊加噪的圖像橫軸代表語音分幀的幀數(shù),縱軸代表濾波器序號也是GF 特征參數(shù)的維數(shù)。由于去噪算法是對畫出的圖像進行去噪,圖像的橫軸和縱軸變?yōu)閳D像的像素點個數(shù),所以右邊去噪后的圖像橫軸代表圖像寬度,縱軸代表圖像的高度。
本文實驗語料1 來自中國國際廣播電臺,主要包括老撾語、柬埔寨語、緬甸語、藏語、維吾爾語、越南語六種語言。每個語種語料采集自多個頻道的不同時間段的不同說話人的廣播音頻。六種語種的語音數(shù)據(jù)采集好后通過人工剪輯的方式,去掉了較長的靜音段,音樂段,以及背景音樂較強的語音段。再通過音頻轉(zhuǎn)換軟件轉(zhuǎn)為單聲道數(shù)據(jù),采樣頻率為16 kHz,采樣深度16位。每個語種的廣播音頻中都含有一定的背景音樂,且包括電臺主持人說話語音,本地人說話語音及采訪語音等。每個語種的語音都包含多個說話人,男女都有混合。每個語種的語料都被剪切成3 秒的固定長度的語音,每條語音之間重疊1 秒。實驗語料中,每個語種訓練集由6~8 個頻道的不同時間段采集的廣播音頻組成,包含3600 條語音。測試集由不同于訓練集的另外4~5 個頻道的不同時間段采集的廣播音頻組成,每個語種包含1000條語音。
本文實驗語料2來自VoxForge公共數(shù)據(jù)集上的六個語種:English,F(xiàn)rench,German,Italian,Russian,Spanish。每個語種150 個說話人,其中120 人的語種語音用于訓練,另外30 人的語種語音用于測試,每個說話人10 條語音,每條語音長度3 秒,每個語種訓練集1200 條語音,測試集300 條語音。語音采樣頻率為16 kHz,采樣深度16位。
本實驗使用python 語言測試本文提出的時域GF特征參數(shù)的語種識別準確率、加噪后的語種識別準確率以及對加噪后的語音提取特征參數(shù)使用自動色階圖像去噪算法去噪后的語種識別準確率。
本文所有實驗均基于Win10 系統(tǒng)下的Py-Torch1.5.1 深度學習框架,使用VGG19 分類網(wǎng)絡和Resnet34 分類網(wǎng)絡和作為本文的語種識別分類網(wǎng)絡。VGG19 分類網(wǎng)絡訓練epoch 大小設置為60,Resnet34 分類網(wǎng)絡訓練epoch 大小設置為40。VGG19 分類網(wǎng)絡和Resnet34 分類網(wǎng)絡的worker 數(shù)為8,batchsize 為16,網(wǎng)絡初始學習率設置為0.0001,使用交叉熵損失函數(shù),采用Adam 優(yōu)化器和ReLU 激活函數(shù)。首先對六個語種提取特征參數(shù)畫出的圖像打標簽,導入神經(jīng)網(wǎng)絡中進行訓練,最后一次循環(huán)中神經(jīng)網(wǎng)絡的輸出節(jié)點保存為語種識別模型,得到的語種識別結(jié)果作為每次訓練的識別結(jié)果。重復10 次訓練分類網(wǎng)絡,并取10 次訓練結(jié)果的平均值作為最終的語種識別結(jié)果。
實驗1:測試本文的時域GF 特征參數(shù)的語種識別有效性。首先對語音進行預處理,提取特征參數(shù)畫圖并保存到文件夾中。接著讀入訓練集圖像,對不同語種畫出的圖像打標簽。使用VGG19 分類網(wǎng)絡和Resnet34 分類網(wǎng)絡分別訓練不同語種的時域GF特征圖,得到語種識別模型。將測試集的圖像讀入,導入語種識別模型中進行識別,得到識別結(jié)果。分別在廣播音頻語料集1 和VoxForge 公共語料集2上進行實驗。與傳統(tǒng)的GFCC 特征、加上一階和二階差分的GFCC-D-A 特征、GFCC-SDC 特征、Fbank特征進行對比,對比本文提出的時域GF 特征的語種識別結(jié)果。
實驗2:測試gammatone濾波器取不同個數(shù)對語種識別結(jié)果的影響。濾波器分別取32 個、64 個、96 個、120 個進行時域濾波,提取不同維數(shù)的時域GF特征,分別測試其語種識別結(jié)果。
實驗3:測試語音加不同噪聲不同信噪比時提取的特征參數(shù)不使用和使用自動色階圖像去噪算法去噪后的語種識別結(jié)果。對不同語種的語音分別加信噪比為10 dB、5 dB、0 dB 的white 噪聲、pink噪聲、factory 噪聲、babble 噪聲,進行預處理后,與歸一化后的gammatone 時域函數(shù)進行卷積,提取時域GF特征參數(shù)畫圖,并使用自動色階算法去噪。與不去噪的特征參數(shù)的識別結(jié)果進行對比。
實驗1:對語音提取32 維的GFCC 特征[8]、32 維的GFCC-D-A 特征[8]、GFCC-SDC 特征[8]、32 維Fbank特征[13]、和本文的32 維時域GF 特征。將提取的特征參數(shù)畫成圖像分別使用VGG19 分類網(wǎng)絡和Resnet34 分類網(wǎng)絡進行訓練識別,在語料集1 和語料集2 下得到的六個語種的平均識別結(jié)果如表1 所示,每個特征參數(shù)的識別結(jié)果均取訓練10次網(wǎng)絡識別結(jié)果的平均值。其中語料集1為本文的廣播音頻語料集,語料集2為VoxForge公共語料集。
從表1中可以看出,本文的時域GF特征在不同的語料集和不同的分類網(wǎng)絡下識別準確率均最高,較Fbank 特征、GFCC-SDC 特征、GFCC-D-A 特征、GFCC 特征均有一定的提升,GFCC 特征識別準確率最低。這是因為本文時域GF 特征進行g(shù)ammatone濾波時是在分幀前進行的,避免了分幀的邊緣效應,濾波效果較好。同時本文的時域GF 特征未進行DCT 變換,保留了語音的聲調(diào),共振峰等信息,將特征畫成圖像進行網(wǎng)絡訓練時能較好的學習到這些特征,達到較好的識別效果。使用Resnet34 分類網(wǎng)絡在廣播音頻語料集1 和VoxForge 公共語料集2下的語種分類效果要好于VGG19分類網(wǎng)絡,主要是因為Resnet34 分類網(wǎng)絡引入了殘差模塊,解決了隨著網(wǎng)絡深度增加的梯度消失問題,能夠很好地起到優(yōu)化訓練的效果。
表1中,對于不同的特征,加上一階和二階差分的GFCC-D-A 特征相比GFCC 特征識別準確率提升了1%~2%,這是因為加上差分后增加了更多的細節(jié)信息,具有更好的區(qū)分效果。GFCC-SDC 特征在GFCC-D-A 特征的基礎(chǔ)上提升了1%~2%,這是因為SDC 特征增強了幀與幀之間的聯(lián)系,在時序上包含了更多的特征信息。Fbank 特征相比MFCC 特征未進行DCT 變換,保留了特征之間的關(guān)聯(lián)性,同時也保留了共振峰信息,達到較好識別效果。本文的時域GF特征相比識別結(jié)果最好的Fbank特征,在不同語料集和不同網(wǎng)絡下識別結(jié)果均提升了1%~3%,這是因為提取該特征時使用gammatone 濾波器進行濾波,更好地模擬了人耳的聽覺特征。同時,本文的時域GF 特征相比GFCC 特征識別結(jié)果提升了6%~7%。通過對比可以看出,本文提出的gammatone 時域濾波方法得到的時域GF 特征更有效,能更好地區(qū)分語種。由于Resnet34 分類網(wǎng)絡能達到更好的分類效果,所以實驗2 和實驗3 均使用Resnet34 分類網(wǎng)絡進行實驗。
表1 不同特征參數(shù)的語種識別準確率(%)Tab.1 Language recognition accuracy rate of different characteristic parameters(%)
對五個特征參數(shù)在語料集1下使用Resnet34分類網(wǎng)絡進行訓練,重復訓練Resnet34分類網(wǎng)絡10次得到六個語種的識別準確率取平均值繪制曲線如圖5所示。
從圖5中可以看出,本文的時域GF特征對六個語種的識別結(jié)果都最好,說明本文的gammatone 時域濾波得到的時域GF 特征能更好的提取到語種相關(guān)的信息,能達到較好的區(qū)分度,在進行神經(jīng)網(wǎng)絡訓練時能更好的訓練語種識別模型。GFCC 特征相對來說對六個語種的識別結(jié)果都較差且波動較大,這是因為GFCC 特征經(jīng)過DCT 變換后,能量集中在前幾維,其他維數(shù)的參數(shù)值較小,且相鄰值之間相差不大,所以在畫成圖像之后區(qū)分度不大,在進行神經(jīng)網(wǎng)絡訓練時不利于語種特征的提取。
實驗2:語音進行g(shù)ammatone 時域濾波,濾波器分別取32 個、64 個、96 個、120 個,得到不同維數(shù)的GF 特征參數(shù),使用Resnet34 分類網(wǎng)絡進行訓練識別,得到的識別結(jié)果如表2所示。
從表2 可以看出,對于不同維數(shù)的時域GF 特征,其語種識別結(jié)果相差不大,均在87%以上。64維時域GF特征識別結(jié)果最好,32維時域GF特征識別結(jié)果最差,同時維數(shù)較高時,識別結(jié)果也相對較差。這是因為參數(shù)維數(shù)較小時,其所含的信息量較少,識別結(jié)果較低,但參數(shù)維數(shù)較大時,所含的細節(jié)信息偏多,會造成一定的信息冗余。但120 維時域GF 特征畫出的圖語音輪廓信息最清晰,所以在后面對語音進行加噪去噪實驗時,為了更好地對比去噪后的效果,后面提取的時域GF 特征維數(shù)取120維。
表2 不同維數(shù)時域GF特征語種識別準確率(%)Tab.2 Accuracy of GF feature language recognition in time domain with different dimensions(%)
六個語種的識別準確率柱狀圖如圖6所示。從圖6中可以看出,不同維數(shù)的時域GF特征參數(shù)對柬埔寨語的識別準確率都最好,說明柬埔寨語提取本文特征參數(shù)具有較好的區(qū)分性。對維吾爾語的識別結(jié)果相對來說較差,但六個語種的整體識別結(jié)果基本在83%以上。不同維數(shù)的GF 特征使用分類網(wǎng)絡進行語種分類時對六個語種的識別準確率也會有一定差別,但120維時域GF特征對六個語種的識別準確率相對較為平均。
實驗3:對不同語種的語音分別加信噪比為10 dB、5 dB、0 dB 的white 噪聲、pink 噪聲、factory 噪聲、babble 噪聲,提取時域GF 特征畫圖,使用Resnet34 分類網(wǎng)絡進行訓練識別,并使用自動色階算法對圖像去噪,對去噪后的特征進行訓練識別。經(jīng)過實驗,本文去除圖像中最小值的20%和最大值的1%識別效果最好。通過模型訓練和語種識別,得到六個語種在四個不同噪聲的不同信噪比下的加噪與去噪的識別結(jié)果如表3所示。
從表3的結(jié)果可以看出,對于不同的噪聲,在不同信噪比下加噪和去噪后的識別結(jié)果也不一樣,但去噪后的識別結(jié)果明顯高于不去噪的識別結(jié)果。在white 噪聲環(huán)境下,去噪后的識別結(jié)果最好,在信噪比為0 dB時可以達到81%的識別準確率,這是因為白噪聲在整個頻率段的分布較為均勻,在使用圖像去噪算法去噪時較為容易去除。在factory 噪聲和babble 噪聲下加噪和去噪后的識別結(jié)果相對較差,這是因為這兩種噪聲都是非平穩(wěn)噪聲,噪聲信號的值也會比較大,容易與語音信號混疊,在進行圖像去噪時不易去除,且信噪比越低,識別結(jié)果越差。同時,在不同的噪聲環(huán)境中不同信噪比下本文的時域GF 特征的語種識別結(jié)果均較好,且在信噪比為0 dB 時在四個噪聲中的識別結(jié)果仍然達到70%以上,說明本文提取的時域GF 特征有效,具有一定的抗噪能力。在不同噪聲不同信噪比下,去噪后識別結(jié)果相對于加噪的識別結(jié)果均有一定的提升,說明使用歸一化后的gammatone 時域濾波器提取的時域GF 特征在使用自動色階算法去噪后的語種區(qū)分能力相對于不去噪的結(jié)果要好,驗證了在噪聲環(huán)境中針對本文的時域GF 特征使用自動色階圖像去噪算法去噪后的語種識別準確率較高,說明本文的算法有效。
本文提出使用gammatone 時域濾波提取特征參數(shù)用于語種識別。將提取的特征參數(shù)畫成圖像使用VGG19 分類網(wǎng)絡和Resnet34 分類網(wǎng)絡進行訓練識別,對比了不同特征參數(shù)在廣播音頻語料集1 和VoxForge 公共語料集2 上的識別結(jié)果。結(jié)果表明,本文的時域GF 特征相比GFCC 特征、GFCC-D-A 特征、GFCC-SDC 特征和Fbank 特征,可以達到更好的語種識別效果。使用Resnet34 分類網(wǎng)絡進行語種分類,在廣播音頻語料集1 下六個語種可以達到87%的識別準確率,識別效果最好。同時,本文對比了不同維數(shù)的時域GF 特征對語種識別的影響,發(fā)現(xiàn)GF 特征的維數(shù)對語種識別的準確率影響不大。為了模擬復雜噪聲下的語種識別,選取Noisex-92 中四種不同噪聲并對語音加噪,提取時域GF 特征,使用自動色階算法去噪,提升了圖像的對比度,在不同噪聲不同信噪比下語種識別準確率均有一定的提升。同時,不去噪的時域GF特征語種識別結(jié)果也較好,說明本文提取的特征參數(shù)具有一定的抗噪能力。由于廣播音頻本身就含有一定的噪聲,在后續(xù)的工作中還將繼續(xù)研究如何更好地去除噪聲,并改進特征提取算法來提升廣播音頻語種識別的準確率。