亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于小波包倒譜系數(shù)和ECAPA-TDNN的調(diào)度說話人確認(rèn)研究

        2023-03-11 06:46:52張志偉楊可林馮志常王天俁
        山東電力技術(shù) 2023年2期
        關(guān)鍵詞:波包小波特征提取

        張志偉,楊可林,馮志常,王天俁

        (國網(wǎng)山東省電力公司菏澤供電公司,山東 菏澤 274002)

        0 引言

        在電力調(diào)度通話過程中,工作指令的下達(dá)越來越規(guī)范化,身份認(rèn)證是不可或缺的一環(huán)[1-2],由于調(diào)度指令下達(dá)的特殊性,遠(yuǎn)程身份認(rèn)證至關(guān)重要,說話人確認(rèn)就是一種合適的身份認(rèn)證技術(shù)。在下達(dá)工作指令時(shí)使用說話人確認(rèn)技術(shù)驗(yàn)證其身份,既規(guī)范操作流程,又明確相關(guān)責(zé)任。

        說話人確認(rèn)主要分為特征提取和說話人建模兩個(gè)部分[3]。Davis 等人提出Mel 倒譜系數(shù)(Melfrequency Cepstral Coefficients,MFCC)[4]進(jìn)行特征提取,然而該方法存在著抗噪性能差、不能提取聲音信號深層動(dòng)態(tài)信息的問題。目前很多研究致力于提高說話人確認(rèn)系統(tǒng)的抗噪能力。Babak 等提出Mel 子帶頻譜減法和Mel 子帶能量壓縮[5]針對Mel 子帶能量以及MFCC 特征的噪聲進(jìn)行補(bǔ)償提高抗噪性。Paresh 等提出基于維納濾波器改進(jìn)的MFCC[6],該濾波器有利于在頻域范圍內(nèi)處理語音中的噪聲。Adam 等提出小波倒譜系數(shù)[7],運(yùn)用小波變換進(jìn)行特征提取,小波變換使用的是有限長會(huì)衰減的小波基,使噪聲只能對局部信號造成影響而不會(huì)干擾整個(gè)特征提取過程。

        隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的說話人識別對聲音進(jìn)行深層處理提取深層特征也帶來了識別性能的提升[8]。Snyder 等人提出x-vector[9-10]將任意長度的輸入轉(zhuǎn)化成固定維度的說話人嵌入特征表達(dá)。目前性能優(yōu)異的網(wǎng)絡(luò)模型大多數(shù)是基于x-vector 的變體[11-13]。強(qiáng)調(diào)通道注意、傳播和聚合的時(shí)延神經(jīng)網(wǎng)絡(luò)(Emphasized Channel Attention,Propagation and Aggregation in Time Delay Neural Network,ECAPA-TDNN)[14]也是基于x-vector 改進(jìn)而來的結(jié)構(gòu),它通過引入擠壓激勵(lì)殘差模塊(Squeeze-Excitation Res2Block,SE-Res2Block)、注意力統(tǒng)計(jì)池化(Attentive Statistics Pooling,ASP)和多層聚合等結(jié)構(gòu)改善了x-vector 幀級時(shí)間背景限制和特征層次單一的問題。

        為提高說話人確認(rèn)特征提取過程的抗噪性能以及深層動(dòng)態(tài)信息的提取能力,提出一種基于小波包倒譜系數(shù)(Wavelet Packet Cepstral Coefficients,WPCC)和ECAPA-TDNN 的說話人確認(rèn)模型,該模型在原有MFCC 的基礎(chǔ)上將快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)更換為小波包分解,增加了倒譜均值方差歸一化以及delta、delta-delta 系數(shù),為ECAPA-TDNN 提供具有深層動(dòng)態(tài)特征的WPCC 聲學(xué)特征。該模型加強(qiáng)了對說話人特征的提取能力,提升了電網(wǎng)指令調(diào)度過程的安全性和規(guī)范化。

        1 Mel倒譜系數(shù)

        傳統(tǒng)MFCC 的提取流程如圖1所示,其關(guān)鍵部分是利用FFT 將固定語音幀由時(shí)域變換到頻域。FFT通過三角函數(shù)(正弦函數(shù)或余弦函數(shù))線性組合得到,而三角函數(shù)是全時(shí)域函數(shù),局部信號中的噪聲會(huì)對整個(gè)聲音信號的特征提取造成影響,導(dǎo)致在MFCC提取過程中容易受到噪聲的干擾。

        圖1 MFCC特征提取

        同時(shí)由于FFT 計(jì)算過程中其窗函數(shù)固定,該方法無法對聲音信號進(jìn)行深層頻率分析,導(dǎo)致其提取的特征向量僅包含該語音幀的靜態(tài)信息和淺層信息,不能凸顯相鄰語音幀之間的動(dòng)態(tài)關(guān)系以及聲音信號中的深層特征。

        2 小波包倒譜系數(shù)

        為了提高特征提取過程的抗噪性、穩(wěn)健性以及充分挖掘聲音信號中的動(dòng)態(tài)信息和深層特征,提出小波包倒譜系數(shù)進(jìn)行特征提取,其流程如圖2 所示,主要改進(jìn)策略是用小波包分解代替FFT 進(jìn)行特征變換,對經(jīng)過倒譜計(jì)算后的聲學(xué)特征進(jìn)行倒譜均值方差歸一化(Cepstral Mean and Variance Normalization,CMVN)[15]以及通過計(jì)算delta 和delta-delta 系數(shù)獲取相鄰語音幀之間的動(dòng)態(tài)關(guān)系。

        圖2 WPCC特征提取

        小波包分解流程如圖3 所示,它是一種局部分析工具,受到噪聲干擾后不會(huì)影響整個(gè)頻譜變換過程,僅對局部提取造成影響,且信號被多層分解,這使WPCC 能提取更加深層的特征。CMVN 通過計(jì)算補(bǔ)償?shù)牡棺V系數(shù),將倒譜系數(shù)限定在固定范圍內(nèi),來消除異常樣本數(shù)據(jù)導(dǎo)致的不良影響,保證特征向量的穩(wěn)健性。delta 和delta-delta 系數(shù)包含了鄰近語音幀之間的交互關(guān)系,在獲取說話人的風(fēng)格、停頓和持續(xù)時(shí)間等信息中發(fā)揮著重要作用。

        圖3 小波包分解

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理可以分為數(shù)據(jù)預(yù)加重、分幀兩個(gè)部分。由于聲音信號的功率隨頻率升高而降低,故其大部分能量集中在低頻信號中,在通過濾波器時(shí),高頻信號發(fā)生的衰減更加嚴(yán)重。為減少高頻部分的信息衰減,采用預(yù)加重對高頻分量進(jìn)行補(bǔ)償,如式(1)所示。

        式中:a為預(yù)加重系數(shù),本文取a=0.98;n為聲音信號中采樣點(diǎn)的序號;s(n)和s(n-1)為原始信號;s′(n)為預(yù)加重之后的信號。分幀將聲音信號分為每幀20 ms 的長度,同時(shí)也設(shè)定10 ms 的重疊幀,保證每一幀都盡量的平穩(wěn)。

        2.2 小波包分解

        小波包分解由一對遞歸的帶通濾波器實(shí)現(xiàn),令輸入的聲音信號x(n)=(n);j為小波包分解的分解層數(shù),其公式如式(2)所示。

        式中:k為小波函數(shù)的位置參數(shù);h(·)和g(·)分別為高通濾波器和低通濾波器(·)是經(jīng)過j層小波包分解得到的第p個(gè)子帶分量是(·)的高頻部分是的低頻部分。

        2.3 倒譜計(jì)算

        由于經(jīng)過倒譜分析后的參數(shù)包含更多的說話人信息,具有更好的代表性,對語音信號進(jìn)行倒譜計(jì)算后將得到其倒譜系數(shù)。

        設(shè)wi(z)為長度為Z的子帶分量,z為wi的位置數(shù),對其進(jìn)行對數(shù)計(jì)算得到對數(shù)譜為

        將對數(shù)譜進(jìn)行離散余弦變換,得到w i的第l個(gè)倒譜系數(shù)為

        2.4 倒譜均值方差歸一化

        首先根據(jù)計(jì)算得到的倒譜系數(shù)計(jì)算所有倒譜系數(shù)的均值和方差,設(shè)聲音信號的總幀數(shù)為T,聲音信號第t幀的倒譜系數(shù)向量為ct。均值以及方差分別如式(5)和式(6)所示。

        則每一幀的補(bǔ)償?shù)棺V系數(shù)向量為

        2.5 delta/delta-delta系數(shù)

        經(jīng)過倒譜均值方差歸一化后共生成16 組倒譜系數(shù),再對16 組倒譜系數(shù)計(jì)算delta 系數(shù)和deltadelta系數(shù)。

        delta系數(shù)計(jì)算公式為

        式中:q 表示dt計(jì)算時(shí)包含周圍t+q和t-q位置的倒譜系數(shù);Q為q的上限值,且本文取Q=2。

        將計(jì)算得到的倒譜系數(shù)、delta 和delta-delta 系數(shù)拼接在一起得到最終的WPCC特征。

        2 ECAPA-TDNN

        目前應(yīng)用廣泛的說話人建模方法是基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)[16]的x-vector,該方法僅處理了最后一個(gè)幀級提取器中的特征,且對所有幀級特征的重視程度相同。為提高幀級特征的利用率,突出區(qū)分度強(qiáng)的深層動(dòng)態(tài)特征,將ECAPA-TDNN 的輸入MFCC 更換為包含深層動(dòng)態(tài)特征的WPCC。

        ECAPA-TDNN 的結(jié)構(gòu)如圖4 所示,圖中Conv1D為一維卷積運(yùn)算;ReLU 為非線性激活函數(shù);BN 為批歸一化;FC 為全連接層。該模型運(yùn)用SE-Res2Block增強(qiáng)了幀級特征的提取能力,并構(gòu)建了一個(gè)多層次的剩余連接,通過多層特征聚合提高了深層特征的表達(dá)能力。

        圖4 ECAPA-TDNN 結(jié)構(gòu)

        SE-Res2Block模塊如圖5所示,該結(jié)構(gòu)將殘差結(jié)構(gòu)[17]與擠壓激勵(lì)模塊(Squeeze and Excitation Block,SE-Block)[18]相互結(jié)合,通過在幀級層之間添加殘差連接來增強(qiáng)說話人嵌入特征。該結(jié)構(gòu)被用于建模通道間的互相依賴關(guān)系,并構(gòu)建了分層剩余連接來處理多尺度特征。SE-Block 根據(jù)全局聲音屬性重新縮放每個(gè)通道的時(shí)間上下文限制的幀級特征。

        圖5 SE-Res2Block模塊

        ECAPA-TDNN 使用多層特征聚合,將最終的幀級特征與通過SE-Res2Block 計(jì)算得到的前兩層幀級特征融合起來,為統(tǒng)計(jì)池化層提供多層次的特征信息。然后通過注意力統(tǒng)計(jì)池化層的處理,將每一個(gè)幀級特征的重要性賦予其不同的權(quán)重,把網(wǎng)絡(luò)的注意力集中在具有代表性的幀級特征中,并將幀級特征聚合成段級特征。最后利用全連接層將段級特征映射為512維的說話人嵌入。

        3 實(shí)驗(yàn)設(shè)置

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)采用TIMIT數(shù)據(jù)集[19]進(jìn)行訓(xùn)練和測試,該數(shù)據(jù)集由630 名說話人構(gòu)成,每個(gè)說話人提供10 條語音。訓(xùn)練集包括6 100條語音,這些語音被用于模型參數(shù)訓(xùn)練。測試集由200 條語音隨機(jī)生成13 191對語音組成,用于說話人確認(rèn)性能評估。

        為測試模型的抗噪性能,在語音樣本中加入信噪比(Signal-Noise Ratio,SNR)分別為30 dB、20 dB和10 dB 的高斯白噪聲來模擬噪聲環(huán)境,信噪比越小代表信號中的噪音成分越大,識別難度越高。

        3.2 實(shí)驗(yàn)參數(shù)

        為獲得更好的性能,在訓(xùn)練階段均采用AAMSoftmax[20]損失函數(shù)(m被設(shè)置為0.20,s被設(shè)置為30)進(jìn)行迭代訓(xùn)練。在測試階段,余弦距離被用來衡量兩個(gè)嵌入特征的相似度。實(shí)驗(yàn)采用等錯(cuò)誤率(Equal Error Rate,EER)來評估模型性能。

        4 實(shí)驗(yàn)分析

        4.1 不同提取方法對比

        使用MFCC+x-vector、WPCC+x-vector、MFCC+ECAPA-TDNN 和WPCC+ECAPA-TDNN 在干凈條件下進(jìn)行對比實(shí)驗(yàn),其中WPCC 使用消失距為26 的Daubechies 小波進(jìn)行訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果如表1所示。

        分析表1的結(jié)果,發(fā)現(xiàn)本文提出的基于WPCC和ECAPA-TDNN 模型EER 最低,該模型相較于傳統(tǒng)的MFCC 與x-vector 模型提升巨大。本文構(gòu)建的WPCC無論結(jié)合ECAPA-TDNN還是x-vector性能都有增強(qiáng)。使用ECAPA-TDNN 說話人建模時(shí),WPCC 相較于MFCC 提升接近26%,使用傳統(tǒng)的x-vector 時(shí)提升更大,達(dá)到51%。小波包分解通過多尺度變換和delta、delta-delta 系數(shù)提取了原始音頻中的深層特征和動(dòng)態(tài)信息,使倒譜系數(shù)擁有了更好的表征能力。

        表1 不同模型性能對比 單位:%

        圖6 是4 種不同模型分別在干凈、30 dB、20 dB和10 dB 條件下的實(shí)驗(yàn)結(jié)果。分析圖6 可知,隨著信噪比的降低,4 種模型的識別性能都有所降低,這說明噪聲是一個(gè)極大影響識別性能的因素;使用WPCC 的模型性能在不同信噪比條件下均優(yōu)于MFCC,這是由于WPCC 使用小波包分解獲得一組獨(dú)立頻譜,抑制了聲音信號中的噪聲表達(dá),且小波包分解比FFT具有更豐富的時(shí)頻分辨率。

        圖6 不同信噪比條件下模型結(jié)果

        4.2 小波基函數(shù)及其消失矩

        小波基函數(shù)是WPCC 的一個(gè)關(guān)鍵問題,合適的小波基函數(shù)可以提高WPCC 的性能。這一部分旨在評估不同小波基函數(shù)和消失距在不同信噪比條件下的性能表現(xiàn)??紤]Daubechies 小波和Symlets 小波,實(shí)驗(yàn)中分別用DbN和SymN表示Daubechies 小波和Symlets小波,其中N是消失距大小。

        圖7 和圖8 分別是本文模型使用Daubechies 小波和Symlets 小波在不同消失距和信噪比條件下的實(shí)驗(yàn)結(jié)果。通過比較這兩張圖發(fā)現(xiàn),當(dāng)信噪比為10時(shí),系統(tǒng)性能最差,除了Db26 以外的所有EER 都大于5%。Db26 在信噪比為10 dB 和30 dB 時(shí),性能最優(yōu),EER分別為1.20%和4.80%。而在信噪比為20 dB的條件下,Db26 的EER 相較于Db14 升高了8.25%。Symlets 小波在信噪比為30 dB、20 dB 和10 dB 條件下得最優(yōu)結(jié)果分別為1.37%、2.40%和5.66%,消失距均為20。

        圖7 Daubechies小波不同信噪比實(shí)驗(yàn)

        圖8 Symlets小波不同信噪比實(shí)驗(yàn)

        這些結(jié)果表明消失距和支撐度的大小是影響小波包倒譜系統(tǒng)性能的兩個(gè)關(guān)鍵因素,提升小波的消失距對提高模型性能有一定的幫助,當(dāng)增大小波的消失距時(shí),支持度增大,小波基函數(shù)變得平滑,從而可以更好逼近聲音信號。但從圖7 可以觀察到消失距并不完全與性能呈正相關(guān)趨勢,Db32 在三種信噪比條件下的EER 均高于Db26,當(dāng)小波基函數(shù)的消失距和支撐度增大到一定程度時(shí),小波基函數(shù)會(huì)過于平滑,將丟失聲音信號中的細(xì)節(jié)特征,不利于特征表達(dá)。所以須在消失距和支撐度大小之間達(dá)到平衡。從上述結(jié)果表明,Db26 是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。

        5 結(jié)語

        提出一種基于WPCC和ECAPA-TDNN的說話人確認(rèn)模型,并使用TIMIT 數(shù)據(jù)集訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明,該模型性能比傳統(tǒng)的MFCC 和x-vector 模型提升明顯,WPCC特征提取方式相較于MFCC 方式抗噪性能和泛化能力也更好,在不同信噪比條件下均有增強(qiáng)。同時(shí)也研究了不同小波基函數(shù)和消失距對識別性能的影響,發(fā)現(xiàn)消失距為26 的Daubechies小波是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。該研究成果將極大地提高說話人確認(rèn)技術(shù)在電力調(diào)度通話過程中的應(yīng)用,促進(jìn)指令調(diào)度流程的規(guī)范化和智能化。

        猜你喜歡
        波包小波特征提取
        構(gòu)造Daubechies小波的一些注記
        基于MATLAB的小波降噪研究
        電子制作(2019年13期)2020-01-14 03:15:32
        基于小波包Tsallis熵和RVM的模擬電路故障診斷
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于改進(jìn)的G-SVS LMS 與冗余提升小波的滾動(dòng)軸承故障診斷
        Bagging RCSP腦電特征提取算法
        基于小波包變換的電力系統(tǒng)諧波分析
        小波包理論與圖像小波包分解
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        基于FPGA小波變換核的設(shè)計(jì)
        電測與儀表(2014年8期)2014-04-04 09:19:38
        亚洲大尺度无码无码专区| 无码三级国产三级在线电影| 琪琪av一区二区三区| 男人的天堂一区二av| 免费1级做爰片1000部视频| 最新国产乱视频伦在线| 在线不卡中文字幕福利| 色播视频在线观看麻豆| 四川丰满妇女毛片四川话| 巨熟乳波霸若妻在线播放| 国产香蕉尹人在线视频你懂的| 亚洲天堂av黄色在线观看| 精品高清国产乱子伦| 亚洲综合久久中文字幕专区一区| 国产午夜av秒播在线观看| 国产精品久久久| 欧美性爱一区二区三区无a| 亚洲熟妇av一区二区三区hd| 好大好湿好硬顶到了好爽视频 | 亚洲精一区二区三av| 国产尤物av尤物在线观看| 成年无码av片完整版| 无码一区二区三区在线在看| 亚洲综合在线一区二区三区| 亚洲va中文字幕无码一二三区| 老熟妻内射精品一区| 国产成社区在线视频观看| 亚洲成人激情深爱影院在线| 久久人人爽爽爽人久久久| 國产一二三内射在线看片| 亚洲天堂av社区久久| 偷拍夫妻视频一区二区| 一个人看的视频www免费| 精品中文字幕制服中文| 五月婷婷丁香视频在线观看| 久久久久国色av免费观看性色| 永久免费观看的毛片手机视频| 一区二区丝袜美腿视频| 一本久道高清视频在线观看| 天堂国精产品2023年| 日韩久久久久中文字幕人妻|