亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于小波包倒譜系數(shù)和ECAPA-TDNN的調(diào)度說話人確認(rèn)研究

2023-03-11 06:46:52張志偉楊可林馮志常王天俁

山東電力技術(shù) 2023年2期

張志偉，楊可林，馮志常，王天俁

（國網(wǎng)山東省電力公司菏澤供電公司，山東菏澤 274002）

0 引言

在電力調(diào)度通話過程中，工作指令的下達(dá)越來越規(guī)范化，身份認(rèn)證是不可或缺的一環(huán)［1-2］，由于調(diào)度指令下達(dá)的特殊性，遠(yuǎn)程身份認(rèn)證至關(guān)重要，說話人確認(rèn)就是一種合適的身份認(rèn)證技術(shù)。在下達(dá)工作指令時(shí)使用說話人確認(rèn)技術(shù)驗(yàn)證其身份，既規(guī)范操作流程，又明確相關(guān)責(zé)任。

說話人確認(rèn)主要分為特征提取和說話人建模兩個(gè)部分［3］。Davis 等人提出Mel 倒譜系數(shù)（Melfrequency Cepstral Coefficients，MFCC）［4］進(jìn)行特征提取，然而該方法存在著抗噪性能差、不能提取聲音信號深層動(dòng)態(tài)信息的問題。目前很多研究致力于提高說話人確認(rèn)系統(tǒng)的抗噪能力。Babak 等提出Mel 子帶頻譜減法和Mel 子帶能量壓縮［5］針對Mel 子帶能量以及MFCC 特征的噪聲進(jìn)行補(bǔ)償提高抗噪性。Paresh 等提出基于維納濾波器改進(jìn)的MFCC［6］，該濾波器有利于在頻域范圍內(nèi)處理語音中的噪聲。Adam 等提出小波倒譜系數(shù)［7］，運(yùn)用小波變換進(jìn)行特征提取，小波變換使用的是有限長會(huì)衰減的小波基，使噪聲只能對局部信號造成影響而不會(huì)干擾整個(gè)特征提取過程。

隨著深度學(xué)習(xí)的發(fā)展，基于深度學(xué)習(xí)的說話人識別對聲音進(jìn)行深層處理提取深層特征也帶來了識別性能的提升［8］。Snyder 等人提出x-vector［9-10］將任意長度的輸入轉(zhuǎn)化成固定維度的說話人嵌入特征表達(dá)。目前性能優(yōu)異的網(wǎng)絡(luò)模型大多數(shù)是基于x-vector 的變體［11-13］。強(qiáng)調(diào)通道注意、傳播和聚合的時(shí)延神經(jīng)網(wǎng)絡(luò)（Emphasized Channel Attention，Propagation and Aggregation in Time Delay Neural Network，ECAPA-TDNN）［14］也是基于x-vector 改進(jìn)而來的結(jié)構(gòu)，它通過引入擠壓激勵(lì)殘差模塊（Squeeze-Excitation Res2Block，SE-Res2Block）、注意力統(tǒng)計(jì)池化（Attentive Statistics Pooling，ASP）和多層聚合等結(jié)構(gòu)改善了x-vector 幀級時(shí)間背景限制和特征層次單一的問題。

為提高說話人確認(rèn)特征提取過程的抗噪性能以及深層動(dòng)態(tài)信息的提取能力，提出一種基于小波包倒譜系數(shù)（Wavelet Packet Cepstral Coefficients，WPCC）和ECAPA-TDNN 的說話人確認(rèn)模型，該模型在原有MFCC 的基礎(chǔ)上將快速傅里葉變換（Fast Fourier Transform，F(xiàn)FT）更換為小波包分解，增加了倒譜均值方差歸一化以及delta、delta-delta 系數(shù)，為ECAPA-TDNN 提供具有深層動(dòng)態(tài)特征的WPCC 聲學(xué)特征。該模型加強(qiáng)了對說話人特征的提取能力，提升了電網(wǎng)指令調(diào)度過程的安全性和規(guī)范化。

1 Mel倒譜系數(shù)

傳統(tǒng)MFCC 的提取流程如圖1所示，其關(guān)鍵部分是利用FFT 將固定語音幀由時(shí)域變換到頻域。FFT通過三角函數(shù)（正弦函數(shù)或余弦函數(shù)）線性組合得到，而三角函數(shù)是全時(shí)域函數(shù)，局部信號中的噪聲會(huì)對整個(gè)聲音信號的特征提取造成影響，導(dǎo)致在MFCC提取過程中容易受到噪聲的干擾。

圖1 MFCC特征提取

同時(shí)由于FFT 計(jì)算過程中其窗函數(shù)固定，該方法無法對聲音信號進(jìn)行深層頻率分析，導(dǎo)致其提取的特征向量僅包含該語音幀的靜態(tài)信息和淺層信息，不能凸顯相鄰語音幀之間的動(dòng)態(tài)關(guān)系以及聲音信號中的深層特征。

2 小波包倒譜系數(shù)

為了提高特征提取過程的抗噪性、穩(wěn)健性以及充分挖掘聲音信號中的動(dòng)態(tài)信息和深層特征，提出小波包倒譜系數(shù)進(jìn)行特征提取，其流程如圖2 所示，主要改進(jìn)策略是用小波包分解代替FFT 進(jìn)行特征變換，對經(jīng)過倒譜計(jì)算后的聲學(xué)特征進(jìn)行倒譜均值方差歸一化（Cepstral Mean and Variance Normalization，CMVN）［15］以及通過計(jì)算delta 和delta-delta 系數(shù)獲取相鄰語音幀之間的動(dòng)態(tài)關(guān)系。

圖2 WPCC特征提取

小波包分解流程如圖3 所示，它是一種局部分析工具，受到噪聲干擾后不會(huì)影響整個(gè)頻譜變換過程，僅對局部提取造成影響，且信號被多層分解，這使WPCC 能提取更加深層的特征。CMVN 通過計(jì)算補(bǔ)償?shù)牡棺V系數(shù)，將倒譜系數(shù)限定在固定范圍內(nèi)，來消除異常樣本數(shù)據(jù)導(dǎo)致的不良影響，保證特征向量的穩(wěn)健性。delta 和delta-delta 系數(shù)包含了鄰近語音幀之間的交互關(guān)系，在獲取說話人的風(fēng)格、停頓和持續(xù)時(shí)間等信息中發(fā)揮著重要作用。

圖3 小波包分解

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理可以分為數(shù)據(jù)預(yù)加重、分幀兩個(gè)部分。由于聲音信號的功率隨頻率升高而降低，故其大部分能量集中在低頻信號中，在通過濾波器時(shí)，高頻信號發(fā)生的衰減更加嚴(yán)重。為減少高頻部分的信息衰減，采用預(yù)加重對高頻分量進(jìn)行補(bǔ)償，如式（1）所示。

式中：a為預(yù)加重系數(shù)，本文取a=0.98；n為聲音信號中采樣點(diǎn)的序號；s(n)和s(n-1)為原始信號；s′(n)為預(yù)加重之后的信號。分幀將聲音信號分為每幀20 ms 的長度，同時(shí)也設(shè)定10 ms 的重疊幀，保證每一幀都盡量的平穩(wěn)。

2.2 小波包分解

小波包分解由一對遞歸的帶通濾波器實(shí)現(xiàn)，令輸入的聲音信號x(n)=(n)；j為小波包分解的分解層數(shù)，其公式如式（2）所示。

式中：k為小波函數(shù)的位置參數(shù)；h(·)和g(·)分別為高通濾波器和低通濾波器(·)是經(jīng)過j層小波包分解得到的第p個(gè)子帶分量是(·)的高頻部分是的低頻部分。

2.3 倒譜計(jì)算

由于經(jīng)過倒譜分析后的參數(shù)包含更多的說話人信息，具有更好的代表性，對語音信號進(jìn)行倒譜計(jì)算后將得到其倒譜系數(shù)。

設(shè)wi(z)為長度為Z的子帶分量，z為wi的位置數(shù)，對其進(jìn)行對數(shù)計(jì)算得到對數(shù)譜為

將對數(shù)譜進(jìn)行離散余弦變換，得到w i的第l個(gè)倒譜系數(shù)為

2.4 倒譜均值方差歸一化

首先根據(jù)計(jì)算得到的倒譜系數(shù)計(jì)算所有倒譜系數(shù)的均值和方差，設(shè)聲音信號的總幀數(shù)為T，聲音信號第t幀的倒譜系數(shù)向量為ct。均值以及方差分別如式（5）和式（6）所示。

則每一幀的補(bǔ)償?shù)棺V系數(shù)向量為

2.5 delta/delta-delta系數(shù)

經(jīng)過倒譜均值方差歸一化后共生成16 組倒譜系數(shù)，再對16 組倒譜系數(shù)計(jì)算delta 系數(shù)和deltadelta系數(shù)。

delta系數(shù)計(jì)算公式為

式中：q 表示dt計(jì)算時(shí)包含周圍t+q和t-q位置的倒譜系數(shù)；Q為q的上限值，且本文取Q=2。

將計(jì)算得到的倒譜系數(shù)、delta 和delta-delta 系數(shù)拼接在一起得到最終的WPCC特征。

2 ECAPA-TDNN

目前應(yīng)用廣泛的說話人建模方法是基于時(shí)延神經(jīng)網(wǎng)絡(luò)（Time Delay Neural Network，TDNN）［16］的x-vector，該方法僅處理了最后一個(gè)幀級提取器中的特征，且對所有幀級特征的重視程度相同。為提高幀級特征的利用率，突出區(qū)分度強(qiáng)的深層動(dòng)態(tài)特征，將ECAPA-TDNN 的輸入MFCC 更換為包含深層動(dòng)態(tài)特征的WPCC。

ECAPA-TDNN 的結(jié)構(gòu)如圖4 所示，圖中Conv1D為一維卷積運(yùn)算；ReLU 為非線性激活函數(shù)；BN 為批歸一化；FC 為全連接層。該模型運(yùn)用SE-Res2Block增強(qiáng)了幀級特征的提取能力，并構(gòu)建了一個(gè)多層次的剩余連接，通過多層特征聚合提高了深層特征的表達(dá)能力。

圖4 ECAPA-TDNN 結(jié)構(gòu)

SE-Res2Block模塊如圖5所示，該結(jié)構(gòu)將殘差結(jié)構(gòu)［17］與擠壓激勵(lì)模塊（Squeeze and Excitation Block，SE-Block）［18］相互結(jié)合，通過在幀級層之間添加殘差連接來增強(qiáng)說話人嵌入特征。該結(jié)構(gòu)被用于建模通道間的互相依賴關(guān)系，并構(gòu)建了分層剩余連接來處理多尺度特征。SE-Block 根據(jù)全局聲音屬性重新縮放每個(gè)通道的時(shí)間上下文限制的幀級特征。

圖5 SE-Res2Block模塊

ECAPA-TDNN 使用多層特征聚合，將最終的幀級特征與通過SE-Res2Block 計(jì)算得到的前兩層幀級特征融合起來，為統(tǒng)計(jì)池化層提供多層次的特征信息。然后通過注意力統(tǒng)計(jì)池化層的處理，將每一個(gè)幀級特征的重要性賦予其不同的權(quán)重，把網(wǎng)絡(luò)的注意力集中在具有代表性的幀級特征中，并將幀級特征聚合成段級特征。最后利用全連接層將段級特征映射為512維的說話人嵌入。

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)集

實(shí)驗(yàn)采用TIMIT數(shù)據(jù)集［19］進(jìn)行訓(xùn)練和測試，該數(shù)據(jù)集由630 名說話人構(gòu)成，每個(gè)說話人提供10 條語音。訓(xùn)練集包括6 100條語音，這些語音被用于模型參數(shù)訓(xùn)練。測試集由200 條語音隨機(jī)生成13 191對語音組成，用于說話人確認(rèn)性能評估。

為測試模型的抗噪性能，在語音樣本中加入信噪比（Signal-Noise Ratio，SNR）分別為30 dB、20 dB和10 dB 的高斯白噪聲來模擬噪聲環(huán)境，信噪比越小代表信號中的噪音成分越大，識別難度越高。

3.2 實(shí)驗(yàn)參數(shù)

為獲得更好的性能，在訓(xùn)練階段均采用AAMSoftmax［20］損失函數(shù)（m被設(shè)置為0.20，s被設(shè)置為30）進(jìn)行迭代訓(xùn)練。在測試階段，余弦距離被用來衡量兩個(gè)嵌入特征的相似度。實(shí)驗(yàn)采用等錯(cuò)誤率（Equal Error Rate，EER）來評估模型性能。

4 實(shí)驗(yàn)分析

4.1 不同提取方法對比

使用MFCC+x-vector、WPCC+x-vector、MFCC+ECAPA-TDNN 和WPCC+ECAPA-TDNN 在干凈條件下進(jìn)行對比實(shí)驗(yàn)，其中WPCC 使用消失距為26 的Daubechies 小波進(jìn)行訓(xùn)練和測試，實(shí)驗(yàn)結(jié)果如表1所示。

分析表1的結(jié)果，發(fā)現(xiàn)本文提出的基于WPCC和ECAPA-TDNN 模型EER 最低，該模型相較于傳統(tǒng)的MFCC 與x-vector 模型提升巨大。本文構(gòu)建的WPCC無論結(jié)合ECAPA-TDNN還是x-vector性能都有增強(qiáng)。使用ECAPA-TDNN 說話人建模時(shí)，WPCC 相較于MFCC 提升接近26%，使用傳統(tǒng)的x-vector 時(shí)提升更大，達(dá)到51%。小波包分解通過多尺度變換和delta、delta-delta 系數(shù)提取了原始音頻中的深層特征和動(dòng)態(tài)信息，使倒譜系數(shù)擁有了更好的表征能力。

表1 不同模型性能對比單位：%

圖6 是4 種不同模型分別在干凈、30 dB、20 dB和10 dB 條件下的實(shí)驗(yàn)結(jié)果。分析圖6 可知，隨著信噪比的降低，4 種模型的識別性能都有所降低，這說明噪聲是一個(gè)極大影響識別性能的因素；使用WPCC 的模型性能在不同信噪比條件下均優(yōu)于MFCC，這是由于WPCC 使用小波包分解獲得一組獨(dú)立頻譜，抑制了聲音信號中的噪聲表達(dá)，且小波包分解比FFT具有更豐富的時(shí)頻分辨率。

圖6 不同信噪比條件下模型結(jié)果

4.2 小波基函數(shù)及其消失矩

小波基函數(shù)是WPCC 的一個(gè)關(guān)鍵問題，合適的小波基函數(shù)可以提高WPCC 的性能。這一部分旨在評估不同小波基函數(shù)和消失距在不同信噪比條件下的性能表現(xiàn)?？紤]Daubechies 小波和Symlets 小波，實(shí)驗(yàn)中分別用DbN和SymN表示Daubechies 小波和Symlets小波，其中N是消失距大小。

圖7 和圖8 分別是本文模型使用Daubechies 小波和Symlets 小波在不同消失距和信噪比條件下的實(shí)驗(yàn)結(jié)果。通過比較這兩張圖發(fā)現(xiàn)，當(dāng)信噪比為10時(shí)，系統(tǒng)性能最差，除了Db26 以外的所有EER 都大于5%。Db26 在信噪比為10 dB 和30 dB 時(shí)，性能最優(yōu)，EER分別為1.20%和4.80%。而在信噪比為20 dB的條件下，Db26 的EER 相較于Db14 升高了8.25%。Symlets 小波在信噪比為30 dB、20 dB 和10 dB 條件下得最優(yōu)結(jié)果分別為1.37%、2.40%和5.66%，消失距均為20。

圖7 Daubechies小波不同信噪比實(shí)驗(yàn)

圖8 Symlets小波不同信噪比實(shí)驗(yàn)

這些結(jié)果表明消失距和支撐度的大小是影響小波包倒譜系統(tǒng)性能的兩個(gè)關(guān)鍵因素，提升小波的消失距對提高模型性能有一定的幫助，當(dāng)增大小波的消失距時(shí)，支持度增大，小波基函數(shù)變得平滑，從而可以更好逼近聲音信號。但從圖7 可以觀察到消失距并不完全與性能呈正相關(guān)趨勢，Db32 在三種信噪比條件下的EER 均高于Db26，當(dāng)小波基函數(shù)的消失距和支撐度增大到一定程度時(shí)，小波基函數(shù)會(huì)過于平滑，將丟失聲音信號中的細(xì)節(jié)特征，不利于特征表達(dá)。所以須在消失距和支撐度大小之間達(dá)到平衡。從上述結(jié)果表明，Db26 是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。

5 結(jié)語

提出一種基于WPCC和ECAPA-TDNN的說話人確認(rèn)模型，并使用TIMIT 數(shù)據(jù)集訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明，該模型性能比傳統(tǒng)的MFCC 和x-vector 模型提升明顯，WPCC特征提取方式相較于MFCC 方式抗噪性能和泛化能力也更好，在不同信噪比條件下均有增強(qiáng)。同時(shí)也研究了不同小波基函數(shù)和消失距對識別性能的影響，發(fā)現(xiàn)消失距為26 的Daubechies小波是WPCC 中綜合性能最優(yōu)的小波基函數(shù)。該研究成果將極大地提高說話人確認(rèn)技術(shù)在電力調(diào)度通話過程中的應(yīng)用，促進(jìn)指令調(diào)度流程的規(guī)范化和智能化。