亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)CFCC 特征提取的語種識別算法研究

        2023-01-27 09:08:50龍華黃張衡邵玉斌杜慶治蘇樹盟
        通信學(xué)報(bào) 2022年12期
        關(guān)鍵詞:語種特征參數(shù)耳蝸

        龍華,黃張衡,邵玉斌,杜慶治,蘇樹盟

        (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

        0 引言

        語種識別(LID,language identification)作為語音信號處理的前端系統(tǒng),根據(jù)語音序列所表征的不同特征信息識別出所屬的語言類別,廣泛應(yīng)用于語種識別系統(tǒng)、智能系統(tǒng)等[1]。傳統(tǒng)的語種識別系統(tǒng)通?;诓煌Z音所具有的音素層特征與聲學(xué)層特征,音素層特征采用了每個(gè)語種之間的音節(jié)和音素的出現(xiàn)頻率與組合方式的差異作為分類依據(jù)來進(jìn)行語種識別[2]。聲學(xué)特征則通過對語音信號進(jìn)行一系列的變換提取出能夠表征整個(gè)語音信號的局部特征來進(jìn)行分類識別。隨著科技的進(jìn)步以及研究者之間的密切聯(lián)系合作,對語種識別技術(shù)的精確度要求也越來越高,特別是在噪聲環(huán)境下能夠有效提取具有穩(wěn)定性與穩(wěn)健性的聲學(xué)特征尤為關(guān)鍵。

        常用的聲學(xué)特征包括基于梅爾濾波器的梅爾頻率倒譜系數(shù)(MFCC,Melfrequency cepstral coefficient)[3-4]、伽瑪通頻率倒譜系數(shù)[5](GFCC,Gammatone frequency cepstral coefficient)以及耳蝸濾波器倒譜系數(shù)[6](CFCC,cochlear filter cepstral coefficient)。文獻(xiàn)[7]首次提出使用小波變換作為耳蝸濾波器的沖激響應(yīng)函數(shù)來模擬人耳聽覺過程提取傳統(tǒng)CFCC 特征并應(yīng)用于語音識別,取得了一定的識別效果。但由于小波變換主要在時(shí)域?qū)π盘栠M(jìn)行分析,在分?jǐn)?shù)域并不能很好地對信號進(jìn)行有效處理,且在低信噪比下傳統(tǒng)CFCC 的抗噪性能并不理想[8]。

        為了提升CFCC 在低信噪比下的抗噪穩(wěn)健性,李晶皎等[9]利用信號相位匹配方法消除語音信號噪聲,再將Teager 能量算子融合CFCC 特征組成新的特征參數(shù),相較單一特征,融合特征提升了語種識別準(zhǔn)確率。文獻(xiàn)[10]將語音相位特征與CFCC 特征相融合應(yīng)用于說話人識別系統(tǒng)來提高系統(tǒng)的識別準(zhǔn)確率和穩(wěn)健性。雖然融合特征的識別準(zhǔn)確率以及抗噪性有所提升,但是其僅單純地進(jìn)行特征融合,語音信號時(shí)域信息的固有不足以及信號時(shí)頻域、分?jǐn)?shù)域信息未能被有效地表征[11],需要考慮信號的時(shí)頻域以及分?jǐn)?shù)域信息。Patel 等[11]提出基于對數(shù)非線性函數(shù)和瞬時(shí)頻率來提取CFCC 特征參數(shù)進(jìn)行語音信號的檢測,其提取的特征具有較高的抗噪性,且彌補(bǔ)了傳統(tǒng)CFCC 特征不能有效提取信號中時(shí)頻域信息的缺陷,但其未能有效分析信號分?jǐn)?shù)域中的信息[8]。為了進(jìn)一步提升低信噪比下語音識別性能,文獻(xiàn)[12]在特征提取前端引入語音增強(qiáng)技術(shù),通過譜減法與特征提取相融合,提取更具穩(wěn)健性的特征。其在特征提取前端進(jìn)行降噪處理,在特征提取的過程中進(jìn)行了非線性信號壓縮,但也忽略了特征中的分?jǐn)?shù)域信息。

        上述方法提取CFCC 特征參數(shù)并未有效考慮噪聲環(huán)境下語音信號的時(shí)頻域、分?jǐn)?shù)域信號信息以及語音信號中所含有的聲壓強(qiáng)度對特征參數(shù)的影響。本文首先在特征提取前端引入自適應(yīng)濾波[13]對語音信號進(jìn)行增強(qiáng)處理。然后采用新型分?jǐn)?shù)階小波變換代替小波變換作為小波基函數(shù)來模擬信號在耳蝸基底膜上的傳播過程,以彌補(bǔ)小波變換不能有效在分?jǐn)?shù)域表征特征的缺陷,且能夠在時(shí)頻域以及分?jǐn)?shù)域?qū)π盘栠M(jìn)行多辨分析。另外,基于小波變換以及分?jǐn)?shù)階小波變換的耳蝸濾波函數(shù)都未能表現(xiàn)出基底膜濾波器的非對稱性與聲壓強(qiáng)度[14],因此,在分?jǐn)?shù)階小波變換濾波函數(shù)中引入能夠反映聲音強(qiáng)度的啁啾參數(shù)[15]以更有效地反映語音信號在耳蝸中的聲壓強(qiáng)度,使提取到的特征更具區(qū)分性。再利用非線性冪函數(shù)對信號進(jìn)行壓縮處理,將其由能量值變?yōu)楦兄懚龋玫交谧赃m應(yīng)濾波的新型分?jǐn)?shù)階耳蝸濾波器倒譜特征(NFCFCCAF,new fractional cochlear filter cepstral coefficient based on adaptive filtering)。該特征突破了傳統(tǒng)CFCC 特征基于小波變換與立方根線性函數(shù)局限于時(shí)頻域分析信號的缺點(diǎn),在能夠繼承多分辨分析優(yōu)點(diǎn)的同時(shí)還可以對噪聲信號在時(shí)頻域和分?jǐn)?shù)域進(jìn)行多辨分析[14]。最后,將提取到的特征語譜圖輸入分類網(wǎng)絡(luò)FcaNet-MobileNetV2 中進(jìn)行分類識別。

        1 CFCC 提取

        CFCC 是基于聽覺感知模擬人耳的聽覺過程提取的,傳統(tǒng)的CFCC 特征采用聽覺正變換模擬聲音從外界傳入人耳經(jīng)過鼓膜放大聲波振動(dòng)能量,再通過鐙骨底板的活塞運(yùn)動(dòng)傳入內(nèi)耳耳蝸引起耳蝸基底膜上的振動(dòng)。文獻(xiàn)[6]采用小波基函數(shù)作為耳蝸濾波函數(shù)通過小波變換來模擬信號在耳蝸基底膜上的運(yùn)動(dòng),使信號通過耳蝸濾波器組、毛細(xì)胞窗口、非線性響度變換以及離散余弦變換(DCT,discrete cosine transform)來實(shí)現(xiàn)CFCC 特征提取。

        小波變換能夠突破時(shí)頻域的局限,更好地處理分析非線性信號,設(shè)原始時(shí)域語音信號x(t),經(jīng)聽覺變換輸出T(a,b) 定義為

        其中,耳蝸基底膜上的沖擊響應(yīng)函數(shù)ψa,b(t)定義為

        其中,α> 0,β> 0,α和β決定了ψa,b(t)的時(shí)頻域形狀和寬度,一般情況下,α=3 且β=0.2 時(shí)降噪效果較佳。a為尺度因子,0<a≤1,由耳蝸濾波器組的最低中心頻率fL與中心頻率fC的比值決定,即;b為位移因子,為隨時(shí)間可變的實(shí)數(shù);θ為控制沖激響應(yīng)角度的初始相位;u(t) 為單位階躍函數(shù),是單位沖激函數(shù)的積分。

        毛細(xì)胞函數(shù)用來模擬人耳耳蝸基底膜上由大量毛細(xì)胞構(gòu)成的螺旋器(柯蒂氏器),通過螺旋器毛細(xì)胞的換能作用把聲波的機(jī)械振動(dòng)能量轉(zhuǎn)變?yōu)樯镫娔茏罱K轉(zhuǎn)化為大腦可分析的電信號。其模擬過程為

        當(dāng)前濾波器中心頻率響應(yīng)相關(guān)神經(jīng)穗就可以用每個(gè)波段的毛細(xì)胞輸出S(i,j) 來表示,即

        最后,將非線性響度變換輸出經(jīng)DCT 進(jìn)行去相關(guān)得到傳統(tǒng)CFCC。

        2 改進(jìn)特征提取

        2.1 基于VMD 的自適應(yīng)濾波降噪

        本節(jié)主要研究低信噪比環(huán)境下的語種識別,定義采樣后帶噪聲的語音信號為

        其中,x(n)為原時(shí)域語音信號x(t)采樣后的信號,g(n) 為零均值高斯白噪聲,其平均信噪比定義為

        為了進(jìn)一步提高帶噪語音信號的識別性能,可以在特征提取前端對語音信號進(jìn)行濾噪處理。由于本文實(shí)驗(yàn)采用添加零均值高斯白噪聲后的語音信號,高斯白噪聲屬于平穩(wěn)噪聲,而常用的頻域?yàn)V波法可以對帶噪信號進(jìn)行處理,但對于帶內(nèi)噪聲其降噪效果并不佳[13]。對于平穩(wěn)噪聲,自適應(yīng)濾波卻能夠不完全依賴噪聲信號的先驗(yàn)統(tǒng)計(jì)特性而根據(jù)算法自適應(yīng)調(diào)整參數(shù),使輸出信號達(dá)到最優(yōu),且對帶內(nèi)噪聲有更好的處理效果[16-17]。本文實(shí)驗(yàn)對帶噪語音信號進(jìn)行變模態(tài)分解(VMD,variational mode decomposition)處理,然后通過基于歸一化最小均方(NLMS,normalization least mean square)自適應(yīng)濾波器降噪,該方法對平穩(wěn)噪聲有較好的處理效果?;赩MD 的自適應(yīng)濾波系統(tǒng)如圖1 所示,其中,s(n) 為帶噪語音信號,y(n) 為自適應(yīng)濾波器的輸出,W為濾波器的權(quán)值系數(shù)向量,e(n) 為誤差信號,對輸入帶噪語音信號進(jìn)行端點(diǎn)檢測后,取出語音信號中的所有無話幀并求取均值作為信號的參考噪聲n(n),因此參考信號為

        圖1 基于VMD 的自適應(yīng)濾波系統(tǒng)

        當(dāng)均方誤差達(dá)最小時(shí),濾波器的系數(shù)向量為最佳權(quán)值,濾波器的濾波效果最佳。對于M階濾波器,輸出y(n) 可表示為

        其中,wm(n)為權(quán)值系數(shù),則自適應(yīng)濾波的權(quán)值系數(shù)向量為

        濾波器的輸入信號向量為

        則輸出信號為

        誤差信號e(n) 可表示為

        則誤差平方的數(shù)學(xué)期望為

        其中,μ為收斂系數(shù),主要控制算法的收斂速度與穩(wěn)定誤差;γ取0.001。

        為了測試自適應(yīng)濾波法在低信噪比下的降噪效果,設(shè)計(jì)實(shí)驗(yàn)在 -10~0 dB 噪聲下對帶噪語音信號進(jìn)行降噪處理。本文實(shí)驗(yàn)引入占空比來描述自適應(yīng)濾波的降噪效果,占空比定義為一段帶噪語音信號中純噪聲時(shí)間與語音信號時(shí)間的比值,主要反映了純噪聲時(shí)間的長短對自適應(yīng)濾波降噪的影響。首先采用 -10~0 dB 信噪比的帶噪語音信號各1 000 條,在每一信噪比下分別對帶噪語音信號進(jìn)行端點(diǎn)檢測,求出其占空比,實(shí)驗(yàn)發(fā)現(xiàn)語音信號的占空比在20%~40%之間。因此將每一信噪比下語音信號以5%占空比為刻度分為5 類,并對每一類占空比下語音信號進(jìn)行降噪濾波后求取改善信噪比均值。其在不同信噪比、不同占空比下的改善信噪比和均方根誤差分別如圖2 和圖3 所示。

        圖2 不同信噪比、不同占空比下的改善信噪比

        圖3 不同信噪比、不同占空比下的均方根誤差

        從圖2 和圖3 中可以看出,自適應(yīng)濾波在低信噪比下對不同占空比的帶噪語音信號降噪效果相對穩(wěn)定,當(dāng)占空比為30%時(shí),其濾噪后改善信噪比較其他占空比要高,且整體相對穩(wěn)定。

        在信噪比為-5 dB、不同占空比下自適應(yīng)降噪過程中的收斂情況如圖4 所示,分析不同占空比下前10 000 個(gè)采樣點(diǎn)、100 次重復(fù)實(shí)驗(yàn)時(shí)的平均均方根誤差。從圖4 中可以看出,隨著迭代次數(shù)的增加,不同占空比下的曲線很快便收斂,其中當(dāng)占空比為20%時(shí),收斂速度最快,在迭代2 000 次時(shí)便收斂,其濾噪效果較佳。在不同信噪比、不同占空比下的實(shí)驗(yàn)結(jié)果表明,采用自適應(yīng)濾波降噪在不同占空比下均有較快的收斂速度,且降噪效果比較穩(wěn)定。

        圖4 不同占空比下收斂曲線

        2.2 基于新型分?jǐn)?shù)階小波變換的NFCFCCAF 特征提取

        傳統(tǒng)的小波變換雖然能夠突破時(shí)頻域限制對噪聲信號進(jìn)行有效處理,但小波變換主要是基于時(shí)頻域信號,不具有分?jǐn)?shù)傅里葉變換分?jǐn)?shù)域表征的缺陷[18],其在分?jǐn)?shù)域中并不能有效表征信號局部特征。而分?jǐn)?shù)階小波變換不僅可以在時(shí)頻域與分?jǐn)?shù)域分析信號,而且在繼承多分辨分析優(yōu)點(diǎn)的同時(shí)還可以對信號在時(shí)頻域與分?jǐn)?shù)域進(jìn)行多辨分析,更具抗噪性。

        設(shè)帶噪語音信號s(n)經(jīng)自適應(yīng)濾波降噪后的連續(xù)語音信號為s(t),采用分?jǐn)?shù)階母小波函數(shù)ψp,a,b(t)作為耳蝸基底膜上的耳蝸濾波函數(shù),則語音信號經(jīng)聽覺變換輸出FRWT(p,a,b)為

        設(shè)時(shí)間函數(shù)為h(t),在分?jǐn)?shù)傅里葉變換下,分?jǐn)?shù)階卷積定義為

        其中,Θp為分?jǐn)?shù)階卷積算子,S p(u)與H(ucscω)分別為s(t)與h(t)的p階分?jǐn)?shù)傅里葉形式。則分?jǐn)?shù)階小波變換分?jǐn)?shù)域形式表示為

        其中,ψ*(aucscω)為ψ(t)的FT(變換元進(jìn)行了尺度cscω伸縮),核函數(shù)Γp(u,b)定義為

        其中,u為分?jǐn)?shù)頻率。因此,式(17)可以改寫為

        由于特征提取中耳蝸濾波函數(shù)的幅頻響應(yīng)曲線關(guān)于中心頻率對稱,其并未有效體現(xiàn)人耳基底膜曲線的非對稱性,且其幅頻響應(yīng)曲線也與強(qiáng)度無關(guān),這與基底膜的強(qiáng)度相關(guān)特性并不相符[15]。因此,為了更有效地體現(xiàn)出人耳基底膜曲線的非對稱性且符合人耳基底膜的強(qiáng)度相關(guān)特性,使函數(shù)能夠?qū)φZ音信號進(jìn)行有效處理,在耳蝸濾波器函數(shù)中引入一個(gè)能夠反映聲音強(qiáng)度的啁啾參數(shù)為對時(shí)間的對數(shù),啁啾因子ξ隨著聲壓強(qiáng)度sP(單位為dB)的變化而變化[15]。

        其中,P0=2×10-5Pa 為參考聲壓,Pe為有效聲壓。

        其中,N為所取的采樣點(diǎn)數(shù),xn為對語音信號x(t)的采樣點(diǎn)。語音信號的聲壓級曲線如圖5 所示。

        圖5 語音信號的聲壓級曲線

        聲壓作為聲擾動(dòng)而產(chǎn)生的逾量壓強(qiáng),是空間位置和時(shí)間的函數(shù),可以定量描述聲波,聲壓強(qiáng)度級能夠隨著聲音的不同而變化,更好地反映了人耳對聲音強(qiáng)弱的變化。因此,在耳蝸濾波函數(shù)中加入反映聲壓強(qiáng)度的啁啾參數(shù)的新型耳蝸濾波器函數(shù)定義為

        圖6 新型耳蝸濾波器組函數(shù)的頻率響應(yīng)

        則語音信號經(jīng)聽覺變換輸出NFRWT(p,a,b)由式(22)改為

        毛細(xì)胞滑動(dòng)窗口函數(shù)定義為

        傳統(tǒng)CFCC 特征提取過程中響度函數(shù)采用式(5)立方根形式,其可以有效地模擬信號,還可以為非線性冪函數(shù)或?qū)?shù)形式。通過實(shí)驗(yàn)對比可知,在噪聲環(huán)境下立方根函數(shù)與對數(shù)函數(shù)較非線性冪函數(shù)的識別效果并不理想[12],因此本文實(shí)驗(yàn)采用非線性冪函數(shù)來模擬人耳聽覺特性。由于非線性冪函數(shù)更符合人耳聽覺神經(jīng)的壓縮感知,通過非線性冪函數(shù)來對毛細(xì)胞輸出信號進(jìn)行非線性響度變換,使其由能量值變?yōu)楦兄懚萚12]。實(shí)驗(yàn)中通過對比調(diào)整不同冪函數(shù),當(dāng)冪函數(shù)的指數(shù)取0.25 時(shí)識別性能最佳,因此,實(shí)驗(yàn)中模擬過程為

        將非線性響度變換輸出經(jīng)離散余弦變換進(jìn)行去相關(guān),即

        其中,n為特征變換后每幀特征的維數(shù),M為耳蝸濾波器個(gè)數(shù),0<n<N,0 ≤m≤M。

        由于人耳在不同頻率聲波之間的聽覺敏感度存在差異,頻率較低的聲音在人耳的耳蝸基底膜上行波傳遞的距離遠(yuǎn)大于頻率較高的聲音。因此,通過升半正弦倒譜提升來減少低維中分量的占比,進(jìn)而可提升高維分量的作用,升半正弦倒譜窗函數(shù)定義為

        倒譜提升后的CFCC 為

        最后得到新的特征參數(shù)NFCFCCAF,其提取過程如圖7 所示。

        圖7 NFCFCCAF 提取過程

        2.3 動(dòng)態(tài)特征提取

        采用新型分?jǐn)?shù)階小波基函數(shù)作為耳蝸基底膜上的耳蝸濾波函數(shù),模擬人耳聽覺過程提取的特征參數(shù)反映了語音信號的靜態(tài)特性,而人耳聽覺過程具有動(dòng)態(tài)特性,為了更好地模擬聽覺過程,本文實(shí)驗(yàn)提取了能夠表征語言信號動(dòng)態(tài)特性的一階差分ΔNFCFCCAF 特征,再將其與NFCFCCAF 特征進(jìn)行融合構(gòu)成融合特征NFCFCCAF-DS,以提升語種識別準(zhǔn)確率。最后將融合特征與NFCFCCAF 特征作為不同分類網(wǎng)絡(luò)的輸入進(jìn)行語種識別比較,以驗(yàn)證本文算法提取特征的穩(wěn)健性與有效性。

        3 FcaNet-MobileNetV2 識別模型

        目前,ResNet 廣泛應(yīng)用于語種識別且能夠表現(xiàn)出高競爭力的識別性能,但其在小樣本數(shù)據(jù)集中網(wǎng)絡(luò)的寬度和深度容易出現(xiàn)過擬合現(xiàn)象,降低整個(gè)網(wǎng)絡(luò)的泛化能力[19]。因此實(shí)驗(yàn)采用基于倒殘差結(jié)構(gòu)的MobileNetV2網(wǎng)絡(luò)來進(jìn)行準(zhǔn)確率測試,以對小樣本數(shù)據(jù)集進(jìn)行有效處理,提取特征中更多的高維信息[20]。且所提取NFCFCCAF 特征中包含了大量的頻域信息[8],因此通過在網(wǎng)絡(luò)模型中引入頻域注意力機(jī)制使網(wǎng)絡(luò)模型能夠捕捉更多的頻域信息,提升網(wǎng)絡(luò)的區(qū)分性。

        本文將輕量化卷積神經(jīng)網(wǎng)絡(luò)MobileNetV2[20]作為識別模型的主干網(wǎng)絡(luò),在其17 個(gè)瓶頸結(jié)構(gòu)中添加了注意力機(jī)制模塊FcaNet[21]構(gòu)成FcaNet-Mobile-NetV2 分類識別模型。其中,F(xiàn)caNet 作為頻域通道注意力機(jī)制,是對SENet[22]的改進(jìn),由于SENet 的全局平均池化(GAP,global average pooling)為二維離散余弦變換的低頻部分,而特征圖中大量的中高頻信息被舍棄了。因此,文獻(xiàn)[21]提出了多譜注意力模塊FcaNet,將通道注意力機(jī)制的壓縮擴(kuò)展到了頻域,進(jìn)而引入更多的頻率分量信息以達(dá)到識別度提升的目的。MobileNetV2 屬于輕量級識別網(wǎng)絡(luò),其是在MobileNetV1 網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)反向殘差塊與線性瓶頸而來的,在保留了MobileNetV1 網(wǎng)絡(luò)中深度可分離卷積加速網(wǎng)絡(luò)思想的同時(shí)能夠更好地提取關(guān)鍵信息提升識別準(zhǔn)確率[23]。因此,為了更好地提取出特征語譜圖中的關(guān)鍵頻域信息且有效地分類識別,本文在MobileNetV2 主干網(wǎng)絡(luò)瓶頸中加入頻域通道注意力機(jī)制模塊以輔助其有效地提取特征語譜圖中的特征信息,組成FcaNet-MobileNetV2 識別模型,如圖8 所示。

        圖8 FcaNet-MobileNetV2 識別模型

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 數(shù)據(jù)準(zhǔn)備及參數(shù)設(shè)置

        1) 數(shù)據(jù)準(zhǔn)備

        本文實(shí)驗(yàn)采用公共數(shù)據(jù)集語料庫LibriVox 中的單通道wav 音頻信號文件,其中包括英語、法語、德語、意大利語、西班牙語這5 個(gè)語種。語音的采樣率fs=16 000 Hz,每條語音信號時(shí)長為3 s,總共有10 000 條實(shí)驗(yàn)語音,每個(gè)語種分別有1 400 條訓(xùn)練集與600條測試集語音文件。實(shí)驗(yàn)以NoiseX-92[24]公共噪聲庫中的白噪聲為噪聲源,構(gòu)建了信噪比分別為 5-dB、0 dB、5 dB、10 dB、15 dB 情況下的訓(xùn)練測試語料并且在每個(gè)數(shù)據(jù)集所對應(yīng)的語種分別打上標(biāo)簽,如表1 和表2 所示。

        表1 不同語種實(shí)驗(yàn)訓(xùn)練集

        表2 不同語種實(shí)驗(yàn)測試集

        本文實(shí)驗(yàn)采用融合了頻域通道注意力機(jī)制的輕量化卷積神經(jīng)網(wǎng)絡(luò)FcaNet-MobileNetV2 作為分類網(wǎng)絡(luò)對特征語譜圖進(jìn)行分類識別。其中,分類網(wǎng)絡(luò)的訓(xùn)練圈數(shù)epoch 參數(shù)設(shè)置為50,batchsize 為50,worker數(shù)為4,模型的學(xué)習(xí)率設(shè)置為0.000 1;將提取出的二維特征輸入分類網(wǎng)絡(luò)中訓(xùn)練10 次,將每次神經(jīng)網(wǎng)絡(luò)最后一次循環(huán)的輸出節(jié)點(diǎn)作為語種的識別模型來對語種測試集進(jìn)行識別,取10 次結(jié)果的平均值作為語種識別結(jié)果。性能評價(jià)指標(biāo)采用美國國家標(biāo)準(zhǔn)與技術(shù)研究院語種評測規(guī)則,表示為

        其中,EL為英語的正確識別個(gè)數(shù),F(xiàn)L為法語的正確識別個(gè)數(shù),GL為德語的正確識別個(gè)數(shù),IL為意大利語的正確識別個(gè)數(shù),SL為西班牙語的正確識別個(gè)數(shù),TL為測試集總數(shù),為語種識別準(zhǔn)確率。

        4.2 實(shí)驗(yàn)

        1) 實(shí)驗(yàn)1

        為了驗(yàn)證本文提出的非線性冪函數(shù)對信號進(jìn)行壓縮模擬過程提取的耳蝸濾波器倒譜系數(shù)(FCFCC,function of cochlear filter cepstral coefficient)與基于立方根函數(shù)、非線性函數(shù)提取的CFCC的語種識別效果,實(shí)驗(yàn)提取了傳統(tǒng)CFCC 特征,采用本文所提非線性冪函數(shù)式(32)提取的FCFCC 特征,文獻(xiàn)[11]中基于對數(shù)非線性函數(shù)的耳蝸濾波器倒譜系數(shù)(LCFCC,logarithm of cochlear filter cepstral coefficient)以及文獻(xiàn)[12]、文獻(xiàn)[25]所提基于非線性冪函數(shù)的CFCC0、CFCC1 特征。上述特征在基于傳統(tǒng)CFCC 特征提取基礎(chǔ)上,僅改變了提取過程中的非線性冪函數(shù),最后將其輸入分類網(wǎng)絡(luò)FcaNet-MobileNetV2 中進(jìn)行分類識別,不同聽覺特性函數(shù)識別準(zhǔn)確率如表3 所示。

        表3 不同聽覺特性函數(shù)識別準(zhǔn)確率

        通過分析發(fā)現(xiàn),在 5-~15 dB 信噪比下,本文所提非線性冪函數(shù)提取的FCFCC 特征參數(shù)語種識別準(zhǔn)確率較文獻(xiàn)[12]、文獻(xiàn)[25]所提CFCC0、CFCC1以及傳統(tǒng)CFCC 有一定的提升。與采用對數(shù)非線性函數(shù)來模擬聽覺特性函數(shù)提取的LCFCC特征相比,其平均識別準(zhǔn)確率提升了4.79%。實(shí)驗(yàn)說明了采用本文所提非線性冪函數(shù)模擬人耳聽覺特性函數(shù)提取的FCFCC 特征參數(shù)在噪聲環(huán)境下具有一定的抗噪性和有效性。

        2) 實(shí)驗(yàn)2

        為了驗(yàn)證本文提出的新型分?jǐn)?shù)階小波變換作為耳蝸基底膜上的耳蝸濾波函數(shù)所提取的NFCFCC 特征參數(shù)的穩(wěn)健性,分別提取不同信噪比下CFCC 特征、MFCC 特征、GFCC 特征以及Fbank 特征,將其輸入分類網(wǎng)絡(luò)FcaNet-MobileNetV2 中進(jìn)行分類識別比較,不同特征參數(shù)識別準(zhǔn)確率如表4 所示。

        從表4 可知,本文利用新型分?jǐn)?shù)階小波基函數(shù)來模擬信號在人耳基底膜上的運(yùn)動(dòng)過程,且引入能夠反映聲音強(qiáng)度的啁啾參數(shù)所提取的NFCFCC 特征較其他特征語種識別準(zhǔn)確率有顯著提升,與MFCC 特征相比其平均識別準(zhǔn)確率提升了4.77%,與 CFCC 特征相比其平均識別準(zhǔn)確率提升了6.58%。因此,采用引入啁啾參數(shù)的新型分?jǐn)?shù)階小波變換來模擬耳蝸濾波器能夠有效地突破小波變換對信號進(jìn)行時(shí)頻域分析的缺陷,從而能夠在時(shí)頻域分析且在繼承多分辨分析優(yōu)點(diǎn)的同時(shí)對信號在時(shí)頻與分?jǐn)?shù)域進(jìn)行多辨分析,進(jìn)一步提升了特征參數(shù)的有效性與穩(wěn)健性。

        表4 不同特征參數(shù)識別準(zhǔn)確率

        3) 實(shí)驗(yàn)3

        為了進(jìn)一步提升改進(jìn)特征參數(shù)的穩(wěn)健性,在實(shí)驗(yàn)2 提取NFCFCC 特征算法的基礎(chǔ)上,在特征提取前端引入自適應(yīng)濾波對信號進(jìn)行增強(qiáng)去噪,提取更具抗噪性的NFCFCCAF 和文獻(xiàn)[12]所提基于譜減法與非線性冪函數(shù)的FFPSS 特征參數(shù),分別在不同信噪比下采用分類網(wǎng)絡(luò)FcaNet-MobileNetV2 進(jìn)行語種識別準(zhǔn)確率比較,不同特征識別準(zhǔn)確率如表5所示,各語種在不同信噪比下的識別準(zhǔn)確率如表6所示。

        從表5 可知,在特征提取前端引入自適應(yīng)濾波對噪聲信號進(jìn)行語音增強(qiáng)處理,再利用實(shí)驗(yàn)2提取NFCFCCAF 特征與文獻(xiàn)[12]提取的FFPSS特征,分別在 -5~15 dB 信噪比下分別進(jìn)行語種識別比較,NFCFCCAF 特征參數(shù)的語種識別準(zhǔn)確率有顯著提升。在低信噪比下,NFCFCCAF 特征較FFPSS 特征其平均識別準(zhǔn)確率提升了2.47%,說明本文算法具有一定的抗噪性與可行性。對比表4 與表5 中NFCFCC 特征與NFCFCCAF 特征的語種識別準(zhǔn)確率可知,引入自適應(yīng)濾波降噪較未采用自適應(yīng)濾波降噪所提取的特征顯著提升了語種識別準(zhǔn)確率,平均識別準(zhǔn)確率提升了3.7%,且較傳統(tǒng)CFCC 特征,其平均識別準(zhǔn)確率提升了10.28%,提升了系統(tǒng)的穩(wěn)健性。

        表5 不同特征識別準(zhǔn)確率

        從表6 可知,5-~15dB 信噪比下各語種的識別效果較好,且識別準(zhǔn)確率整體呈上升趨勢。說明了采用本文算法對語音信號提取NFCFCCAF 特征再利用FcaNet-MobileNetV2 網(wǎng)絡(luò)進(jìn)行分類識別能夠更好地提取語種之間的相關(guān)信息并且達(dá)到了較好的區(qū)分度。在低信噪比下,相較于其他語種,法語的語種識別準(zhǔn)確率較低,平均識別準(zhǔn)確率達(dá)80%,而英語的識別準(zhǔn)確率最高,平均識別準(zhǔn)確率達(dá)88%。這說明法語提取的文本特征區(qū)分性較其他語種并不高,而英語提取到的文本特征參數(shù)區(qū)分性最高。

        表6 各語種在不同信噪比下的識別準(zhǔn)確率

        4) 實(shí)驗(yàn)4

        由于NFCFCCAF 特征參數(shù)所表征的為語音信號的靜態(tài)特征,并不能較好地表現(xiàn)出語音的實(shí)際動(dòng)態(tài)特性。為測試本文所提NFCFCCAF 的語種識別有效性,求取NFCFCCAF 特征參數(shù)的一階差分系數(shù)[24]、再與NFCFCCAF 特征進(jìn)行融合處理得到融合特征NFCFCCAF-DS。

        為了驗(yàn)證本文所提分類網(wǎng)絡(luò)FcaNet-MobileNetV2 的識別性能,采用不同的分類網(wǎng)絡(luò) FcaNet-MobileNetV2、MobileNetV2 以及ResNet[24]對特征參數(shù)進(jìn)行分類識別。其識別結(jié)果如表7 所示。

        從表7 可知,在-5~15 dB 信噪比下,不同特征在不同分類網(wǎng)絡(luò)中都表現(xiàn)出較好的識別效果。在FcaNet-MobileNetV2 分類網(wǎng)絡(luò)中,2 種特征平均識別準(zhǔn)確率達(dá)83.05%和85.65%;在MobileNetV2 分類網(wǎng)絡(luò)中,2 種特征平均識別準(zhǔn)確率達(dá)81.04%與83.6%。在這2 種特征下FcaNet-MobileNetV2 網(wǎng)絡(luò)較MobileNetV2 網(wǎng)絡(luò)平均識別準(zhǔn)確率提升了2.01%與2.05%。這說明經(jīng)過引入頻域注意力機(jī)制使整個(gè)網(wǎng)絡(luò)模型能夠集中捕捉特征中的頻域信息,加強(qiáng)了特征判別的指向性,提升了網(wǎng)絡(luò)的識別性能。

        表7 不同特征在不同分類網(wǎng)絡(luò)中的語種識別準(zhǔn)確率

        在ResNet 分類網(wǎng)絡(luò)中,2 種特征平均識別準(zhǔn)確率達(dá)81.30%和82.27%,F(xiàn)caNet-MobileNetV2 網(wǎng)絡(luò)較ResNet 平均識別準(zhǔn)確率提升了1.75%和3.38%。說明基于倒殘差結(jié)構(gòu)FcaNet-MobileNetV2 網(wǎng)絡(luò)能夠有效處理小樣本,且提取到特征中更多的高維信息以及頻域信息,避免了特征信息損失,彌補(bǔ)了基于殘差結(jié)構(gòu)的ResNet 對于小樣本中不能有效提取整體特征足夠多的信息缺陷,驗(yàn)證了FcaNet-MobileNetV2 網(wǎng)絡(luò)的可行性與識別優(yōu)越性。同時(shí)通過不同的分類網(wǎng)絡(luò)也驗(yàn)證了本文算法所提取特征參數(shù)的有效性。

        另外,從本文所提NFCFCCAF 特征參數(shù)與加上反映其動(dòng)態(tài)特性的NFCFCCAF-DS 特征參數(shù)在不同信噪比下的語種識別準(zhǔn)確率可知,在3 種分類網(wǎng)絡(luò)下,NFCFCCAF-DS 動(dòng)態(tài)特征參數(shù)的識別準(zhǔn)確率都要高于靜態(tài)特征NFCFCCAF 的識別準(zhǔn)確率。且在FcaNet-MobileNetV2 分類網(wǎng)絡(luò)下動(dòng)態(tài)特征較靜態(tài)特征平均識別準(zhǔn)確率提升了2.6%,特別在-5 dB 信噪比下語種識別準(zhǔn)確率提升了5.7%。這說明NFCFCCAF-DS 特征參數(shù)在低信噪比下能夠有效反映出語音信號局部特征動(dòng)態(tài)特性,同時(shí)有效表征語音信號的完整特性,具有較好的穩(wěn)健性。

        5 結(jié)束語

        針對低信噪比下語種識別準(zhǔn)確率低與穩(wěn)健性差的問題,提出了一種結(jié)合自適應(yīng)濾波與分?jǐn)?shù)階小波變換的耳蝸倒譜系數(shù)提取算法。實(shí)驗(yàn)采用自適應(yīng)濾波對語音信號進(jìn)行噪聲濾除,再將新型分?jǐn)?shù)階小波變換作為小波基函數(shù)來模擬信號在耳蝸基底膜上的運(yùn)動(dòng),然后通過模擬人耳聽覺過程提取出NFCFCCAF 特征參數(shù),最后將提取出的特征參數(shù)作為FcaNet-MobileNetV2 網(wǎng)絡(luò)的輸入進(jìn)行分類識別。實(shí)驗(yàn)對比了傳統(tǒng)CFCC 特征以及近幾年經(jīng)典的Fbank 等特征,本文算法的識別準(zhǔn)確率都有顯著提升,相較于傳統(tǒng) CFCC 語種識別性能提升了10.28%,有效改善了傳統(tǒng)特征在低信噪比下識別準(zhǔn)確率低的問題,具有較強(qiáng)穩(wěn)健性,且更具抗噪性,提高了語種識別準(zhǔn)確率。由于本文實(shí)驗(yàn)只針對特征提取進(jìn)行改進(jìn),因此在未來的研究中,需要加強(qiáng)對語種識別的模型研究,以進(jìn)一步提升語種識別性能及穩(wěn)健性。

        猜你喜歡
        語種特征參數(shù)耳蝸
        耳蝸微音器電位臨床操作要點(diǎn)
        故障診斷中信號特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        《波斯語課》:兩個(gè)人的小語種
        “一帶一路”背景下我國的外語語種規(guī)劃
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        DR內(nèi)聽道像及多層螺旋CT三維重建對人工耳蝸的效果評估
        豚鼠耳蝸Hensen細(xì)胞脂滴的性質(zhì)與分布
        統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識別
        電測與儀表(2015年7期)2015-04-09 11:40:04
        基于Gammachirp耳蝸能量譜特征提取的音頻指紋算法
        亚洲精品久久麻豆蜜桃| 国产精品爽爽v在线观看无码| 欧洲vat一区二区三区| 欧美mv日韩mv国产网站| 成人午夜视频一区二区无码| 魔鬼身材极品女神在线| 宅男视频一区二区三区在线观看| 亚洲av日韩av卡二| 香港台湾经典三级a视频| 国产乱子伦视频大全| 精品国产一区二区三区久久女人| 黄页国产精品一区二区免费| 免费看黄视频亚洲网站| 国产精品麻豆va在线播放| 成年免费视频黄网站zxgk| 人妻人人澡人人添人人爽人人玩 | 久久99国产精品久久99果冻传媒| 亚洲а∨天堂久久精品2021| 中文字幕一区二区三区在线不卡| 日本精品一区二区三区在线播放 | 开心五月天第四色婷婷| 无码人妻少妇久久中文字幕蜜桃| 无码久久精品国产亚洲av影片| 日韩激情网| 高潮av一区二区三区| 嗯啊好爽高潮了在线观看| 欧美成人精品午夜免费影视| 1000部精品久久久久久久久| 男人的天堂av一二三区| 99久久精品国产91| 精品综合久久久久久888蜜芽| 人妻少妇被猛烈进入中文字幕| 第十色丰满无码| 亚州中文字幕乱码中文字幕| 极品人妻被黑人中出种子| 国产97在线 | 亚洲| 欧美高清视频一区| 免费人成网在线观看品观网| 极品嫩模大尺度av在线播放| 国产无遮挡又黄又爽在线观看| 国产在线观看黄|