亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MRACC 特征的魯棒說話人識別研究

        2021-02-25 03:37:18夏秀渝
        智能計算機與應用 2021年10期
        關鍵詞:特征實驗模型

        崔 瀟, 夏秀渝

        (四川大學 電子信息學院, 成都 610065)

        0 引 言

        近年來,說話人識別的研究獲得了迅速發(fā)展,在軍事、信息安全和通信等領域都有廣泛應用[1]。 在現實環(huán)境中,由于噪聲的存在,導致說話人系統(tǒng)的識別率顯著下降。 因此如何提高系統(tǒng)在噪聲環(huán)境下的識別性能成為研究熱點。

        在特征提取方面,常用的說話人識別特征有梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)[2]、線性預測倒譜系數(Linear Prediction Cepstral,LPCC)[3]等。 通過對Gammatone 濾波器的研究,Chen 等人[4]提出多分辨率耳蝸圖(Multiresolution cochleagram,MRCG),相較于MFCC 和LPCC 特征,則具有更好的抗噪性能。

        隨著機器學習算法的發(fā)展,神經網絡被用于說話人識別中,楊瑤等人[5]使用誤差反向傳播(Back Propagation,BP)網絡進行文本無關的說話人識別研究。 蓋晁旭[6]利用稀疏(Sparse Autoencoder,SA)提取說話人特征進行說話人識別,循環(huán)神經網絡(Recurrent Neural Networks,RNN)具有記憶功能,處理時序數據的能力較強。 目前, Hochreiter 和Schmidhuber 提出的長短時記憶網絡[7](Long Short Term Memory,LSTM)是應用最廣泛的RNN 網絡之一。 LSTM 網絡在處理時間范圍較大的信息時具有更好的性能,被用于語種識別[8]、語音識別[9]、音素分類[10]、唇語識別[11]等多個領域中。

        本文構建了基于MRACC 特征的說話人識別系統(tǒng)。 在噪聲環(huán)境下,首先使用文中提出的改進型譜減法完成語音的預降噪處理,接著提取基于多分辨率耳蝸圖的MRACC 特征,最后將特征參數輸入到LSTM 網絡中實現模型的訓練與匹配,通過實驗驗證了本文提出的說話人識別方法的有效性。

        1 說話人識別系統(tǒng)

        本文的說話人識別系統(tǒng)框圖如圖1 所示。 主要包含預處理、特征提取、模型訓練、模型匹配和決策判決五個模塊。 在訓練過程中,首先對訓練集語音進行特征參數提取,然后利用訓練集的特征參數通過模型訓練得到說話人模型庫。 在測試過程中,則對測試集語音信號進行預處理操作,同樣提取說話人的特征參數,再通過比對輸出概率進行判決,輸出概率最高者即為識別的說話人。

        圖1 說話人識別系統(tǒng)框圖Fig.1 Block diagram of speaker recognition system

        1.1 預處理

        針對復雜噪聲環(huán)境,對語音信號進行的預處理包括預加重、前端降噪處理等。

        1.1.1 預加重

        預加重的目的是提升語音的高頻分量。 通常使用一階高通濾波器實現預加重技術, 其傳遞函數可表示為:

        其中,a為預加重系數。 通常,0.9<a <1.0,實驗中a取0.97。

        1.1.2 前端降噪處理

        為了解決噪聲較大時,說話人系統(tǒng)的識別準確率較低的問題,本文先對含噪語音信號采用前端降噪處理提高識別率。 譜減法是最常用的降噪方法,發(fā)展較為成熟,簡單容易實現。 譜減法的基本原理是在假設噪聲是統(tǒng)計平穩(wěn)的前提下估計噪聲的頻譜值,與含噪語音的頻譜值相減,得到純凈語音的頻譜估計值。 但實際噪聲往往是隨機非平穩(wěn)的,語音降噪后常產生“音樂噪聲”,針對上述問題,本文提出了一種根據信噪比動態(tài)調整參數的改進型譜減法。算法主要步驟如下:

        (1)能熵比算法端點檢測。 在噪聲環(huán)境下,能熵比法具有較好的端點檢測效果,在其計算過程中和譜減法有共用的部分,組合使用運算量小。 能熵比的數學定義如下:

        其中,AM Pi表示第i幀語音的能量,Hi表示第i幀語音的譜熵。

        (2)噪聲譜實時更新。 實際噪聲往往是非平穩(wěn)的,文中采用滑動平均的方法對非語音段內的噪聲譜進行實時更新。 在靜音段,為了得到較小的譜估計方差,對第i幀頻譜進行如下平滑處理:

        其中,Yi(k) 表示第i幀第k條譜線的譜值。 本文中M =1,即在計算3 幀的平均值。

        (3)動態(tài)調整參數。 根據帶噪語音的信噪比動態(tài)調整改進譜減法的一組參數,實現抑制噪聲和語音失真的折中。 改進型譜減法定義如式(4)所示:

        其中,α為過減因子,β為增益補償因子。 同時這里引入了參數λ。

        參數α和λ值的大小會影響去噪程度,α和λ的值越大,噪聲去除得越多,音樂噪聲越小,但語音失真也越厲害;增益補償因子β值過大會帶來噪聲殘留,過小會產生“音樂噪聲”。

        為取得噪聲抑制和語音失真之間的平衡,采取根據信噪比動態(tài)調整參數α、β、λ的方法:

        其中,σ是一個控制曲線陡峭程度的參數,τ是偏差參數。 通過實驗選取最優(yōu)參數值為:σ =0.9,τ =15。SNR為每幀語音的短時信噪比,是一種后驗信噪比,計算如下:

        1.2 特征提取

        特征提取是說話人識別系統(tǒng)中重要的部分,常用的語音特征包括MFCC、LPCC 和MRCG 等。 其中,MFCC 利用基于聽覺模型的Mel 濾波器組進行提取,是一種最常用的語音特征參數,而LPCC 參數是基于聲道模型理論,通過線性預測分析得到的一種語音特征參數。 說話人識別應用中,LPCC 在純凈語音環(huán)境下識別效果較好;相較于LPCC,MFCC對噪聲環(huán)境有一定的魯棒性,但在低信噪比環(huán)境下的識別率仍然較低。 MRCG 特征采用Gammatone 濾波器組模擬人耳聽覺模型,有效提取了多分辨率的cochleagram。 該特征既關注了細節(jié)性的高分辨率特征,又可把握全局性的低分辨率特征,具有一定的魯棒性。 但都是通過采用對數函數對語音能量進行壓縮來模擬人耳對語音強度感知的非線性特性,對數壓縮在高音段可以很好地模擬人耳聽覺特性,卻在低音段會產生較大誤差。 尤其是在含噪情況下,當噪聲較小時,對數壓縮會擴大小信號的影響,不利于進行說話人識別。 另一方面,MRCG 特征維數較大,計算復雜度高。 基于前文分析,本次研究對MRCG特征進行了改進,提取一種改進的語音特征參數-多分辨率聽覺倒譜系數MRACC 特征。 MRACC 特征提取過程如圖2 所示。

        圖2 MRACC 特征提取過程圖Fig.2 MRACC feature extraction process diagram

        MRACC 特征參數提取步驟如下:

        (1)時頻分解。 輸入信號x(t) 經過Gammatone濾波器后分解為64 個子帶信號G(t,fc),對應公式為:

        其中,U(t) 表示單位階躍函數,g(t,fc) 為Gammatone 濾波器的頻率響應。

        對子帶信號G(t,fc) 進行加窗分幀,得到時頻分解表達式y(tǒng)i(t,fc),對應公式為:

        其中,w(t) 為窗函數,本文選擇漢明窗;inc為幀移,設置為10 ms;幀長設置為20 ms。

        對時頻單元提取聽覺能量(cochlea gram),得到第i幀中心頻率為fc的時頻單元的聽覺能量。 計算公式為:

        其中,yi(t,fc) 表示第i幀中心頻率為fc的子帶信號。

        (2)冪函數壓縮。 原始MRCG 特征使用對數函數對聽覺能量進行非線性壓縮處理,對數壓縮會擴大語音中小信號的影響。 當噪聲較小時,同樣也對噪聲進行了放大,所以針對存在噪聲的情形,考慮改進非線性壓縮方式。 通過研究發(fā)現,基于強度-響度感知的冪函數可以代替對數函數更好地模擬人耳對各個音強段的感知特性。 聽覺能量GF1經過冪函數處理,得到耳蝸圖(CG1),如式(12)所示:

        實驗表明,n =15 可以很好地模擬人耳感知音強的非線性特性。

        對數函數壓縮的函數曲線與冪函數壓縮的函數曲線如圖3 所示。 由圖3 可以看出,對數函數與冪函數相比,對小信號放大更多,抑制噪聲的性能會更差一些。 因此本文提取特征時,選擇了冪函數代替對數函數對聽覺能量進行非線性壓縮。

        圖3 非線性壓縮函數圖Fig.3 Non-linear compression function graph

        (3)多分辨率耳蝸圖特征提取。 文中,將幀長改為200 ms,計算時頻單元2 的聽覺能量GF2,并進行冪函數壓縮得到耳蝸圖CG2,表達式為:

        取長為11 幀,寬為11 個子帶的方形窗對CG1進行平滑,得到耳蝸圖(CG3),計算公式為:

        和CG3計算相似,使用長為23 幀,寬為23 個子帶的方形窗對CG1進行平滑,得到耳蝸圖(CG4),計算公式為:

        將CG1、CG2、CG3和CG4合并得到64*4 維的特征向量,其表達式為:

        (4)離散余弦變換(DCT)。 對得到的MRCG 特征進行離散余弦變換的目的是去除相關性,其表達式為:

        其中,c表示頻率通道,c的范圍為[0,64];M為總通道數,本文中M取64。 當c >32 時,MRACC(i,fc) 的值基本接近于0,因此選取前32 維特征,即32*4 維的特征向量。

        1.3 神經網絡模型

        機器學習在語音識別領域取得了可觀的研究成果,所以越來越多地將神經網絡用于說話人識別中。BP 網絡簡單實用,但存在網絡訓練容易陷于局部最優(yōu)解、無法調整到網絡低層參數等問題。 近年來提出了各種基于深度學習的深度神經網絡,如稀疏編碼網絡(SA)、卷積神經網絡(CNN)等。 這些網絡擁有更強大的建模和表征能力, 能夠實現復雜函數的逼近,不過這些網絡屬于前饋網絡,表征時序信號的能力有限。 而語音具有時序性,循環(huán)神經網絡適合處理前后文有明顯關系的數據,因此本文的神經網絡模型選擇RNN 網絡。 LSTM 是一種特殊的RNN類型,是在RNN 的基礎上增加了輸入門、遺忘門和輸出門。 可以改善RNN 網絡存在的梯度消失、梯度爆炸等問題。 網絡結構如圖4 所示。

        圖4 LSTM 細胞結構圖Fig.4 LSTM cell structure diagram

        在圖4 中,輸入門it決定送入記憶單元的信息以及更新;遺忘門ft根據上一時刻的輸出ht-1以及此時的輸入xt進行信息選擇,保留重要信息,遺忘非重要信息;輸出門ot控制當前細胞單元的輸出,確定哪些信息可作為下一時刻的輸入。 計算公式如下所示:

        其中,Wf、Wi、Wo為權重參數;bf、bi、bo為偏置參數; 激活函數均為sigmoid。

        當前時刻的候選記憶細胞c~t、記憶細胞ct和隱藏單元ht可用式(21)~(23)進行計算:

        其中,“ *”為Hadamard 積。

        本文采用LSTM 神經網絡構建說話人識別模型,利用LSTM 神經網絡學習一個由語音特征參數到說話人識別結果的非線性映射。 LSTM 網絡模型結構如圖5 所示。 網絡的輸入序列層節(jié)點數為語音特征的維度;設置2 層LSTM 隱藏層,用來傳遞信息;為了防止過擬合現象,設置Dropout 層;最后依次為全連接層、Softmax 層和分類層,輸出節(jié)點數為說話人的數目。 訓練階段,將特征序列輸入到LSTM 網絡,LSTM 網絡將根據序列數據的時間步進行訓練,多次訓練保存最優(yōu)模型,由此得到說話人模型。 識別階段,將測試語音的特征序列輸入訓練好的說話人模型中,得到預測結果,將其進行比對,概率最大的即為預測的說話人身份。

        圖5 LSTM 網絡模型結構圖Fig.5 LSTM network model structure diagram

        實際應用環(huán)境復雜,多數情況下都存在環(huán)境噪聲,針對噪聲環(huán)境下說話人識別系統(tǒng)的識別率顯著下降問題,本文分別從魯棒性特征參數和語音預降噪處理角度對識別系統(tǒng)進行了改進。

        2 實驗和分析

        2.1 實驗條件

        2.1.1 實驗數據集

        本文使用語音來自TIMIT 庫語音集[12],語音信號采樣率是16 kHz,量化位數為16 bit,單通道錄音。 此語音集由8 種美國英語方言組成,包含630個說話人的錄音。 每個人共10 個種類豐富的句子,其中包含方言、緊湊句子以及音素發(fā)散句子。 實驗噪聲選取的是來自noisex-92 噪聲庫的write 噪聲、pink 噪聲以及非平穩(wěn)factory 噪聲。 原始純凈語音分別加入不同信噪比的上述噪聲模擬含噪語音。 信噪比大小設置為0 dB、5 dB、10 dB、30 dB。

        2.1.2 實驗設置

        從數據集中選取50 個說話人(男30 人,女20人),按照4 ∶1 的比例分成訓練樣本集和測試樣本集。 每個人的訓練模型使用8 句語音,測試使用2句語音。 對語音進行預處理后,按幀長320、幀移160,逐幀提取語音特征參數。

        本文使用的特征包括MRACC、MRCG、MFCC、LPCC 特征。 特征維度設置如下:MACC 特征參數為128 維;MRCG 特征參數為256 維;MFCC 參數包含12 維MFCC、以及12 維一階差分參數和12 維二階差分參數,共36 維;LPCC 參數12 維。

        說話人識別模型采用神經網絡模型,分別為BP網絡、SA 稀疏編碼網絡、LSTM 網絡。 網絡模型的具體設置如下:LSTM、BP、SA 網絡的輸入層節(jié)點數均為輸入特征的維度,輸出層節(jié)點數為說話人數目;隱藏層設置分別為LSTM 網絡設置2 層隱藏層,每層節(jié)點數均為400;BP 神經網絡隱藏層設置2 層,每層節(jié)點數也都為400;SA 網絡設置2 層隱藏層,每層節(jié)點數也都為400。

        2.2 前端降噪處理對比實驗

        為了驗證本文提出的降噪方法的必要性以及有效性。 進行了以下對比試驗,本組實驗特征參數選擇MRACC,網絡模型為LSTM 網絡。 實驗結果見表1。

        表1 說話人識別系統(tǒng)是否進行降噪處理的識別率Tab.1 The recognition rate of whether the speaker recognition system carries out noise reduction %

        從表1 可以看出,在以上噪聲環(huán)境下,進行前端降噪處理相較于未進行前端降噪處理識別率高,如在factory 噪聲0 dB 環(huán)境下,本文方法和常規(guī)譜減法對比未進行降噪處理的識別率分別提高了14%和6%,因此進行前端降噪處理是有必要的,分析后可知對比常規(guī)譜減法,本文提出的降噪方法更有效。

        2.3 不同特征參數的對比實驗

        為了 驗 證 MRACC 特 征 的 有 效 性, 選 取MRACC、MRCG、MFCC、LPCC 四種特征參數進行了以下2 組實驗。 網絡模型選擇LSTM 網絡。 實驗一是驗證MRACC 特征的抗噪性能進行的對比試驗,實驗結果見表2。 實驗二為驗證經過前端降噪處理后MRACC 性能的對比實驗,實驗結果見表3。

        表2 未進行前端降噪處理的不同特征參數的識別率Tab.2 The recognition rate of different feature parameters without front-end noise reduction %

        表3 進行前端降噪處理的不同特征參數的識別率Tab.3 The recognition rate of different feature parameters for the front-end noise reduction %

        由表2 得到,在factory 噪聲信噪比0 dB 時,MRACC 識別率比MRCG 高出8%,比傳統(tǒng)特征MFCC 和LPCC 均 高出 約10%。 在10 dB 時,MRACC 識別率比MRCG、傳統(tǒng)特征MFCC 和LPCC分別高出約10%、15%和20%。 因此MRACC 特征相較于MRCG、MFCC、LPCC 特征在噪聲環(huán)境下的識別率更好,該特征的抗噪性能較好。

        針對復雜的噪聲情況,研究中對語音先降噪處理,再提取特征。 由表3 可以看出,在write 噪聲環(huán)境下,當信噪比為30 dB 時,MRACC 識別率比MRCG 高出約10%,比傳統(tǒng)特征MFCC 和LPCC 均高出約20%。 綜上, MRACC 特征具有一定的魯棒性,并且經過前端降噪處理后,MRACC 特征依舊穩(wěn)定。

        2.4 不同網絡模型下的對比試驗

        為了驗證LSTM 網絡處理時序信號的性能,選取LSTM 網絡、BP 網絡、以及SA 稀疏自編碼網絡進行說話人識別對比試驗。 特征參數選擇MRACC 特征,實驗結果見表4。

        表4 在不同網絡模型下MRACC 特征的識別率Tab.4 Recognition rate of MRACC features under different network models %

        可以看出,BP 網絡模型對輸入特征進行深層抽取的能力不如SA 和LSTM 網絡,識別效果較差一些;SA 網絡屬于深層網絡,識別效果比BP 網絡好。在pink 噪聲5 dB 環(huán)境下,LSTM 網絡較SA 網絡的識別率高出4%,較BP 網絡高出6%。 綜上,無論是在噪聲環(huán)境下、還是非噪聲環(huán)境下,LSTM 網絡對時序語音信號的處理能力優(yōu)于BP 以及SA 網絡。

        3 結束語

        針對目前噪聲環(huán)境下說話人識別系統(tǒng)識別率較低的情況,本文提出一種基于MRACC 特征的說話人識別系統(tǒng)。 利用改進型譜減法對語音進行預降噪處理,接著使用冪函數代替對數函數對聽覺能量進行非線性壓縮,提取語音的MRACC 特征,最后通過LSTM 網絡完成模型訓練與說話人識別。 經過實驗驗證,使用改進型譜減法對語音進行預降噪處理,使說話人系統(tǒng)在低信噪比時的識別效果得到了明顯改善。 無論是在純凈環(huán)境下、還是在噪聲環(huán)境下,MRACC 特征相比較傳統(tǒng)特征MFCC 和LPCC 能夠得到更好的識別效果。

        猜你喜歡
        特征實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        NO與NO2相互轉化實驗的改進
        国产人成在线成免费视频| 水蜜桃精品一二三| 韩国精品一区二区三区无码视频 | 久久亚洲精品无码va大香大香| 亚洲成人免费无码| 伊人狼人影院在线视频| 精品一区二区三区四区国产| 亚洲国产成人无码av在线影院| 成人久久免费视频| 91大神蜜桃视频在线观看| 国产人妖在线免费观看| 在线视频精品少白免费观看| 国产精品黄色片在线看| 国产精品久久久久久婷婷| 久久精品国产亚洲不av麻豆| 久久久久久国产福利网站| 99伊人久久精品亚洲午夜| 丰满少妇弄高潮了www| 国模少妇一区二区三区| 99精品国产闺蜜国产在线闺蜜| 精品一区二区中文字幕| 国产精品亚洲三级一区二区三区 | 色777狠狠狠综合| 久久久天堂国产精品女人| 欧美日韩国产成人综合在线影院| 亚洲无av码一区二区三区| 日日麻批免费40分钟无码| 成人小说亚洲一区二区三区| 精品无码人妻久久久一区二区三区| 男女做那个视频网站国产| 男女啪动最猛动态图| 国产老熟女狂叫对白| 麻豆国产成人AV网| 亚洲一区二区刺激的视频| 内射爽无广熟女亚洲| 亚洲AV秘 无码一区二区三区1| 亚洲女同高清精品一区二区99 | 久久精品国产亚洲不卡| 日韩夜夜高潮夜夜爽无码| 狠狠色噜噜狠狠狠狠米奇777| 色综合久久加勒比高清88|