亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全局注意力機(jī)制的CNN-LSTM 說(shuō)話人識(shí)別研究

        2022-04-27 07:32:48楚憲騰楊海濤閆道申許銘洋王華朋
        電聲技術(shù) 2022年2期
        關(guān)鍵詞:聲紋識(shí)別注意力語(yǔ)音

        楚憲騰,楊海濤,閆道申,許銘洋,王華朋

        (中國(guó)刑事警察學(xué)院 公安信息與情報(bào)學(xué)院,遼寧 沈陽(yáng) 110854)

        0 引言

        說(shuō)話人識(shí)別又稱為聲紋識(shí)別,是通過(guò)聲音對(duì)說(shuō)話人身份進(jìn)行同一認(rèn)定的技術(shù)。聲紋是從語(yǔ)音中提取出來(lái)的可以表征說(shuō)話人身份的特征參數(shù)。聲紋與虹膜或DNA 等生物特征類似,由于每個(gè)人的鼻腔、口腔等生理結(jié)構(gòu)的不同,不同話者的發(fā)音方式和發(fā)音習(xí)慣也是不同的,即使通過(guò)模仿也無(wú)法模擬出帶有說(shuō)話人身份信息的本質(zhì)特征。因此,聲紋識(shí)別能夠通過(guò)此類特征將不同人的聲音進(jìn)行有效區(qū)分,進(jìn)而根據(jù)區(qū)分結(jié)果對(duì)說(shuō)話人身份進(jìn)行同一性認(rèn)定。近年來(lái),聲紋識(shí)別領(lǐng)域逐漸與深度學(xué)習(xí)結(jié)合,深度學(xué)習(xí)相對(duì)于傳統(tǒng)聲紋識(shí)別方法的優(yōu)勢(shì)在于它的特征表示能力,它可以從語(yǔ)音中提取更高維度的抽象特征。目前使用深度學(xué)習(xí)進(jìn)行聲紋識(shí)別的常用特征主要有語(yǔ)音波形、聲譜圖、F-bank 特征以及Mel 頻率倒譜系數(shù)(Mel Frequency Cepstral Cofficient,MFCC)等。文獻(xiàn)[1]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行聲紋識(shí)別,分為兩步卷積過(guò)程,分別以端到端的方式直接從原始語(yǔ)音信號(hào)中提取說(shuō)話人身份信息。首先使用卷積層提取所有待檢測(cè)人的嵌入向量作為總向量,然后提取待檢測(cè)說(shuō)話人嵌入向量與總向量?jī)?nèi)積得出相似性得分,然后利用遷移學(xué)習(xí)模型如VGGNet,根據(jù)模型在大數(shù)據(jù)集上的特征提取能力遷移至目標(biāo)數(shù)據(jù)集,來(lái)提取目標(biāo)數(shù)據(jù)的深層本質(zhì)特征。文獻(xiàn)[2]采用VGGNet 模型進(jìn)行說(shuō)話人識(shí)別,首先將語(yǔ)音信號(hào)轉(zhuǎn)換為MFCC 作為深度CNN 的輸入特征,然后將VGGNet 在目標(biāo)語(yǔ)音集上遷移學(xué)習(xí),取得了比淺層CNN 更良好的識(shí)別性能。文獻(xiàn)[3]采用d-vector 與長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)結(jié)合的方法,輸出層采用k-means聚類方法,識(shí)別結(jié)果得到了優(yōu)化。文獻(xiàn)[4]采用3層LSTM 進(jìn)行說(shuō)話人識(shí)別,LSTM 輸出層結(jié)合注意力機(jī)制,識(shí)別性能有所提升。無(wú)論是將語(yǔ)音信號(hào)轉(zhuǎn)換為圖像信息還是直接提取時(shí)序信息,使用單一模型進(jìn)行特征提取效果均受到限制。由于語(yǔ)音信號(hào)是多變的、連續(xù)的時(shí)序信號(hào),故在聲紋識(shí)別中既要考慮語(yǔ)音的空域信息,也要考慮其時(shí)域信息。CNN能捕捉到特征空間上的聯(lián)系,LSTM 可以處理具有先后順序特征的數(shù)據(jù)信息。文獻(xiàn)[5]、文獻(xiàn)[6]都將CNN 與LSTM 進(jìn)行結(jié)合,提出一種多尺度的混合模型,既考慮語(yǔ)音信號(hào)空域的特征聯(lián)系,也考慮時(shí)間域上的信息,取得了比單一模型更好的效果。語(yǔ)音信號(hào)雖是一種連續(xù)信號(hào),但不同語(yǔ)音幀對(duì)聲紋識(shí)別的貢獻(xiàn)也不一樣,若對(duì)整段語(yǔ)音直接建模將會(huì)影響深度學(xué)習(xí)的特征提取能力。文獻(xiàn)[7]將注意力機(jī)制與循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)結(jié)合,在機(jī)器翻譯任務(wù)中取得良好的效果。因此,將注意力機(jī)制(attention mechanism)引入神經(jīng)網(wǎng)絡(luò),有望提高關(guān)鍵語(yǔ)音幀對(duì)識(shí)別結(jié)果的貢獻(xiàn)。針對(duì)上述問(wèn)題,本文提出一種基于注意力機(jī)制的CNN+LSTM 說(shuō)話人識(shí)別方法,首先將語(yǔ)音轉(zhuǎn)換為MFCC,GFCC 特征,以圖片的形式輸入CNN,然后通過(guò)LSTM 將CNN 學(xué)習(xí)到的特征序列進(jìn)行時(shí)序處理,將LSTM 的輸出作為注意力層的輸入計(jì)算注意力權(quán)重,最后送入Softmax 層進(jìn)行分類。本文方法既結(jié)合了CNN+LSTM 的特征表示能力,又使用注意力機(jī)制聚焦不同說(shuō)話人聲音的特殊性,進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)能力,提高說(shuō)話人識(shí)別的性能。

        1 特征提取

        1.1 MFCC 提取

        MFCC 著眼于人耳聽(tīng)覺(jué)感知特性。人耳對(duì)于不同頻率聲波的聽(tīng)覺(jué)敏感度是不同的,根據(jù)聽(tīng)覺(jué)感知結(jié)果來(lái)分析語(yǔ)音得到頻譜。實(shí)驗(yàn)證明,使用MFCC進(jìn)行說(shuō)話人識(shí)別結(jié)果較好[8]。其計(jì)算及提取過(guò)程如下:通過(guò)對(duì)語(yǔ)音進(jìn)行預(yù)加重、分幀及加窗等處理后,可以得到語(yǔ)音幀的時(shí)域信號(hào),對(duì)語(yǔ)音幀進(jìn)行快速傅立葉變換得到各幀的頻譜。

        1.2 GFCC 提取

        Gammatone 濾波器模擬人耳耳蝸聽(tīng)覺(jué)模型,魯棒性更強(qiáng)。Gammatone 濾波器倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients,GFCC)提取過(guò)程與MFCC 類似,過(guò)程如下。

        (1)語(yǔ)音經(jīng)過(guò)預(yù)處理后,進(jìn)行快速傅立葉變換,將語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)轭l域信號(hào),并得到語(yǔ)音的功率譜和能量譜。

        (2)將能量譜通過(guò)Gammatone 濾波器進(jìn)行濾波處理。

        (3)對(duì)濾波器的輸出進(jìn)行對(duì)數(shù)壓縮,目的是進(jìn)一步模擬人耳的聽(tīng)覺(jué)感知特性。由于濾波器中相鄰的濾波器有重疊部分,導(dǎo)致特征系數(shù)之間存在一定的相關(guān)性,經(jīng)過(guò)離散余弦變換以減小其相關(guān)性,得到GFCC 特征。

        2 網(wǎng)絡(luò)模型搭建

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)目前已經(jīng)應(yīng)用到聲紋識(shí)別方面,卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值共享、稀疏連接等特性可以減少參數(shù)量,降低模型訓(xùn)練的難度。

        卷積神經(jīng)網(wǎng)絡(luò)通常由多個(gè)卷積層、池化層、全連接層組成。卷積層用于特征提取,卷積核對(duì)輸入信息進(jìn)行卷積運(yùn)算,卷積核越多,提取的特征越深,每一次卷積操作都會(huì)產(chǎn)生大量的參數(shù),因此采用權(quán)值共享的方法。池化層對(duì)特征信息降維,以減少參數(shù)量,方式有最大池化和平均池化兩種。全連接層則將信息轉(zhuǎn)化為一維數(shù)據(jù),便于輸出分類結(jié)果[9-10]。本文提取出的語(yǔ)音特征均為圖像形式,可以通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。但是卷積神經(jīng)網(wǎng)絡(luò)不便提取具有時(shí)序?qū)傩缘臄?shù)據(jù)特征,因此本文將CNN與LSTM 進(jìn)行結(jié)合,將CNN 提取的深層特征作為L(zhǎng)STM 的輸入特征。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。

        圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)具有天然的時(shí)間深度,對(duì)變長(zhǎng)數(shù)據(jù)建模具有優(yōu)勢(shì)[11],但傳統(tǒng)的RNN 在訓(xùn)練時(shí)間跨度較長(zhǎng)時(shí)會(huì)出現(xiàn)長(zhǎng)期依賴問(wèn)題,導(dǎo)致梯度爆炸或消失。LSTM 網(wǎng)絡(luò)結(jié)構(gòu)利用了門控的概念,通過(guò)門控機(jī)制控制信息流動(dòng),緩解了梯度消失問(wèn)題。輸入門決定記憶單元內(nèi)保存的信息;輸出門決定輸出的單元信息;遺忘門決定要遺忘的信息。LSTM的記憶單元結(jié)構(gòu)如圖2 所示。

        圖2 LSTM 記憶單元

        由于不同時(shí)刻的信息對(duì)當(dāng)前時(shí)刻狀態(tài)的影響比重不同,太過(guò)久遠(yuǎn)的信息不如上一時(shí)刻的信息對(duì)現(xiàn)在時(shí)刻影響大,模型需要對(duì)不同時(shí)刻產(chǎn)生的輸出進(jìn)行重要性評(píng)估,因此本文引入注意力機(jī)制。

        2.3 注意力機(jī)制

        注意力機(jī)制是一種自動(dòng)加權(quán)機(jī)制,它可以將不同模塊通過(guò)加權(quán)的形式進(jìn)行聯(lián)系,迫使模型學(xué)會(huì)將注意力集中在輸入序列的特定部分,即為事物的關(guān)鍵部分分配更多的注意力,通過(guò)注意力概率分布的計(jì)算,為特定區(qū)域分配更大的權(quán)重[12]。

        鑒于LSTM 本身的結(jié)構(gòu),在每一個(gè)時(shí)刻s都會(huì)產(chǎn)生相應(yīng)的隱藏層狀態(tài)hs,在最后一個(gè)時(shí)刻t時(shí),隱藏層狀態(tài)為ht。之前的做法只會(huì)用到最后時(shí)刻的隱藏層狀態(tài)ht而忽略之前產(chǎn)生的隱藏層狀態(tài),因此會(huì)過(guò)多關(guān)注句尾部分。本文基于這一機(jī)制改進(jìn)CNN 聯(lián)合LSTM 的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)注意力機(jī)制處理被現(xiàn)有結(jié)構(gòu)忽略的時(shí)序特征中的重要度差異。本文使用注意力模型對(duì)話語(yǔ)特征中不同片段的重要性進(jìn)行打分,將重點(diǎn)集中在具有個(gè)人獨(dú)特發(fā)音的部分。

        本文所用的注意力機(jī)制為global-attention 機(jī)制[13]。注意力機(jī)制的輸入為L(zhǎng)STM 層最終時(shí)刻的隱藏狀態(tài)ht,輸出為基于語(yǔ)音時(shí)序隱藏層狀態(tài)的注意力權(quán)重分布P,過(guò)程是推導(dǎo)出一個(gè)承載時(shí)間序列信息的Ct。公式(1)和公式(2)通過(guò)比較目前的隱藏層狀態(tài)ht與其所有隱藏層狀態(tài)計(jì)算相似度,得到αt(s),得分函數(shù)選擇點(diǎn)積:

        之后利用公式(3)通過(guò)加權(quán)平均的方式得到向量Ct:

        使用式(13)將向量ht與Ct進(jìn)行首尾拼接處理,然后乘以注意力機(jī)制的權(quán)重矩陣,將上下文向量整合成注意力隱藏層狀態(tài):

        最后使用Softmax 分類層將注意力權(quán)重值歸一化:

        2.4 網(wǎng)絡(luò)結(jié)構(gòu)

        本文提出的基于注意力機(jī)制CNN-LSTM 說(shuō)話人識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

        圖3 基于注意力機(jī)制的CNN-LSTM 說(shuō)話人識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)

        文獻(xiàn)[14]指出,卷積所提取的高層特征對(duì)時(shí)間建模有所增益,應(yīng)首先使用卷積處理數(shù)據(jù),過(guò)濾不重要的信息以提取重要的特征。因此,本文將CNN 及LSTM 串聯(lián),形成CNN-LSTM 模型[15]。首先對(duì)語(yǔ)音預(yù)處理轉(zhuǎn)換為MFCC,GFCC,將聲譜圖輸入CNN,然后將涵蓋空間特征關(guān)系的特征作為L(zhǎng)STM 的輸入,得到時(shí)間維度上的關(guān)聯(lián)信息,充分利用兩個(gè)網(wǎng)絡(luò)的空域、時(shí)域表征能力。之后使用注意力層進(jìn)行優(yōu)化,通過(guò)概率分配權(quán)重的方式,將注意力集中在有效信息中,進(jìn)一步發(fā)掘長(zhǎng)時(shí)信息的序列特征。

        根據(jù)以往經(jīng)驗(yàn),MFCC 的提取采用26 個(gè)Mel 頻率濾波器組,經(jīng)DCT 變換計(jì)算20 維的倒譜系數(shù)。將原始語(yǔ)音經(jīng)過(guò)預(yù)處理后,得到大小為148×20 的單通道圖像,即輸入網(wǎng)絡(luò)的數(shù)據(jù)維度為148×20×1。本文的實(shí)驗(yàn)中說(shuō)話人個(gè)數(shù)分別為40和60,說(shuō)話人標(biāo)簽以獨(dú)熱編碼的形式進(jìn)行處理,以矩陣的形式輸入網(wǎng)絡(luò)。本文CNN 網(wǎng)絡(luò)的卷積核數(shù)、卷積核大小設(shè)置如表1 所示。

        表1 卷積層參數(shù)設(shè)置

        卷積核大小采用3×3,便于識(shí)別細(xì)微特征,池化層大小為2×2,池化方法選擇最大池化,激活函數(shù)選用Relu 函數(shù)。將卷積輸出的數(shù)據(jù)改變維度后送入LSTM 提取時(shí)序特征[15],由于LSTM 為循環(huán)神經(jīng)網(wǎng)絡(luò),為防止網(wǎng)絡(luò)過(guò)擬合,在循環(huán)之間加入Dropout 層[16],對(duì)不同的外部LSTM 單元按照一定比例斷開(kāi),本文設(shè)置為按20%的比例斷開(kāi)。然后對(duì)LSTM 提取的特征加入注意力機(jī)制,使模型對(duì)LSTM 網(wǎng)絡(luò)輸出的特征給予不同的關(guān)注度,最后接入Softmax 全連接層[17],輸出說(shuō)話人的身份信息。本文實(shí)驗(yàn)人數(shù)分別為40 人和60 人,故全連接層的輸出維度為40 和60。本文網(wǎng)絡(luò)結(jié)構(gòu)層次的形象化表達(dá)如表2 所示。

        表2 網(wǎng)絡(luò)結(jié)構(gòu)層次

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        本文采用LibriSpeech 數(shù)據(jù)庫(kù)與實(shí)驗(yàn)室中文數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練。中文數(shù)據(jù)庫(kù)中共包含60 名18~23 歲的男性說(shuō)話人(年齡相差不超過(guò)五歲)的語(yǔ)音樣本,采樣率為16 kHz,每人有兩段錄音,錄音期間間隔一個(gè)月,錄音內(nèi)容為朗讀指定的文本,錄音信道為手機(jī)線路。由于每個(gè)人的錄音環(huán)境、信噪比不同,因此需要對(duì)音頻進(jìn)行預(yù)處理。經(jīng)過(guò)去除靜默段等預(yù)處理后,分割成15 s 左右的音頻文件(本文算法采用15 s 音頻文件作為訓(xùn)練樣本,識(shí)別率較好),每名說(shuō)話人包含約25 個(gè)音頻文件,共1 485個(gè)音頻文件。從中選取80%音頻文件(1 188 個(gè))作為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的樣本,20%音頻文件(297個(gè))作為測(cè)試樣本。

        LibriSpeech 是一個(gè)采樣率為16 kHz,語(yǔ)料時(shí)長(zhǎng)為接近1 000 h 的英語(yǔ)書(shū)籍朗讀語(yǔ)音庫(kù),分為7 個(gè)子集。本研究使用dev-clean 子集,共有5.4 h 的錄音時(shí)長(zhǎng),其中男女共40 個(gè)說(shuō)話人,每名說(shuō)話人的時(shí)長(zhǎng)在8 min。經(jīng)過(guò)切割,控制每名說(shuō)話人的語(yǔ)音時(shí)長(zhǎng)在10 s 左右。經(jīng)過(guò)切割后的音頻文件共2 938 個(gè),選取其中80%(2 350 個(gè))音頻文件作為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的樣本,20%(588 個(gè))的音頻文件作為測(cè)試集樣本。實(shí)驗(yàn)采用準(zhǔn)確率作為模型評(píng)估指標(biāo)。

        本文選擇實(shí)驗(yàn)仿真平臺(tái)為ubantu18.04 操作系統(tǒng),選用Python 3.7+Tensorflow 2 版本,處理器為Intel Xeon(R)Gold 6132 CPU,顯卡為NVIDIA Tesla P4,滿足測(cè)試過(guò)程中對(duì)語(yǔ)言版本的要求。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        為了更好地驗(yàn)證本文所提算法的有效性,分別在CNN、CNN+LSTM 及CNN+LSTM+attention 三種網(wǎng)絡(luò)模型下使用MFCC 和GFCC 特征進(jìn)行聲紋識(shí)別,識(shí)別結(jié)果如表3、表4 所示。效果最好的網(wǎng)絡(luò)模型為本文所提出模型,使用MFCC 特征在中文數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了96.21%,在LibriSpeech數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了96.71%,相較于不添加注意力機(jī)制的CNN+LSTM,準(zhǔn)確率分別提高了3.76%和2.09%。使用GFCC 特征在中文數(shù)據(jù)集上識(shí)別準(zhǔn)確率達(dá)到了97.86%,在LibriSpeech數(shù)據(jù)集上識(shí)別準(zhǔn)確率達(dá)到了97.82%,相較于CNN+LSTM 準(zhǔn)確率分別提高了1.40%和0.46%。由于CNN+LSTM 網(wǎng)絡(luò)輸出為隨機(jī)權(quán)值,若直接送入Softmax 函數(shù)進(jìn)行分類預(yù)測(cè)效果并不好。而改進(jìn)的基于注意力機(jī)制的CNN-LSTM 網(wǎng)絡(luò)則為概率分配權(quán)值,可以提取關(guān)鍵特征,預(yù)測(cè)效果好于其他二者。

        表3 MFCC 特征下不同模型的識(shí)別準(zhǔn)確率

        表4 GFCC 特征下不同模型的識(shí)別準(zhǔn)確率

        可以看出,在網(wǎng)絡(luò)迭代500 次時(shí),三種網(wǎng)絡(luò)模型均得到較高的識(shí)別率。本文所用中文數(shù)據(jù)庫(kù)為個(gè)人使用手機(jī)錄制,且錄制環(huán)境,錄音條件各不相同,相對(duì)于抗噪性能一般的MFCC 來(lái)說(shuō),GFCC 的魯棒性更強(qiáng),故使用GFCC 特征的總體準(zhǔn)確率要高于使用MFCC 特征。無(wú)論是使用MFCC 還是GFCC 特征,英文數(shù)據(jù)集識(shí)別率整體要高于中文數(shù)據(jù)集。這是由于普通話時(shí)間熵密度較低,每秒字符較少,并且普通話每個(gè)字有自己的發(fā)音,相比于英文具有更大的字符集合,并且有很多同音字,識(shí)別更加困難。CNN+LSTM 在一定程度上融合了局部和全局特征,相較于單一CNN 網(wǎng)絡(luò)可以結(jié)合上下文特征,且LSTM中的記憶單元發(fā)揮作用,從而提升了識(shí)別效果。

        圖4、圖5 給出了訓(xùn)練周期為500 的訓(xùn)練過(guò)程的識(shí)別準(zhǔn)確度變化曲線(以GFCC 為例)及訓(xùn)練過(guò)程中損失大小變化曲線。模型根據(jù)每次處理128個(gè)數(shù)據(jù)后的分類準(zhǔn)確度及訓(xùn)練損失大小變化,得到交叉熵?fù)p失函數(shù)值,用來(lái)評(píng)判當(dāng)前的預(yù)測(cè)分布與真實(shí)分布的差異情況,損失函數(shù)值越小,表明模型預(yù)測(cè)越準(zhǔn)確。由圖中可以看出,隨著訓(xùn)練周期的增大,準(zhǔn)確率和損失率逐步進(jìn)入收斂狀態(tài),且在訓(xùn)練300個(gè)周期后趨于穩(wěn)定。訓(xùn)練準(zhǔn)確率趨于100%,損失率趨于0%,測(cè)試準(zhǔn)確率趨于97%,損失率趨于最小值,最終測(cè)試準(zhǔn)確率為97.82%。

        圖4 損失函數(shù)曲線

        圖5 準(zhǔn)確率曲線

        為了進(jìn)一步清晰地顯示實(shí)驗(yàn)結(jié)果,本文給出了兩個(gè)混淆矩陣圖,如圖6 和圖7 所示。圖6 給出了預(yù)測(cè)次數(shù)的混淆矩陣,橫坐標(biāo)表示預(yù)測(cè)標(biāo)簽,縱坐標(biāo)表示真實(shí)標(biāo)簽,圖中數(shù)字代表預(yù)測(cè)次數(shù)。如果數(shù)字在對(duì)角線上出現(xiàn),代表預(yù)測(cè)標(biāo)簽和說(shuō)話人標(biāo)簽相同,則預(yù)測(cè)正確。如圖6 左上角數(shù)字為“ 54 ”,代表0 號(hào)說(shuō)話人有54 次被預(yù)測(cè)為0 號(hào)說(shuō)話人。對(duì)角線上的數(shù)字越大,則預(yù)測(cè)越準(zhǔn)確。

        圖6 正確預(yù)測(cè)次數(shù)混淆矩陣

        圖7 代表準(zhǔn)確率的混淆矩陣,橫坐標(biāo)表示預(yù)測(cè)標(biāo)簽,縱坐標(biāo)表示真實(shí)標(biāo)簽。圖中數(shù)值表示預(yù)測(cè)值被歸為某一說(shuō)話人的比例,位于對(duì)角線上的數(shù)值越大表示有越多的序列被正確歸類。由圖可以看出,對(duì)角線上的數(shù)字均在0.94 以上,最高為1,表示本文算法對(duì)于聲紋識(shí)別最高可達(dá)到100%的預(yù)測(cè)率,由錯(cuò)誤預(yù)測(cè)值看出誤差在2%以內(nèi)。圖和圖對(duì)角線值均為最大值,表示模型訓(xùn)練效果較好,未出現(xiàn)梯度爆炸或梯度消失現(xiàn)象。

        圖7 識(shí)別準(zhǔn)確率混淆矩陣

        4 結(jié)語(yǔ)

        本文提出了一種基于注意力機(jī)制的CNNLSTM 聲紋識(shí)別方法,首先提取語(yǔ)音的MFCC,GFCC 特征圖作為輸入,充分發(fā)揮CNN 的局部特征提取能力和LSTM 的長(zhǎng)時(shí)序處理能力,將語(yǔ)音的幀內(nèi)特征和幀間(時(shí)序)特征進(jìn)行融合,最后將LSTM層作為注意力層的輸入,通過(guò)計(jì)算注意力權(quán)重增加語(yǔ)音序列中關(guān)鍵幀的貢獻(xiàn)度,最后由Softmax 函數(shù)進(jìn)行分類,分類維度為說(shuō)話人的數(shù)量,輸出結(jié)果為識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,在LibriSpeech數(shù)據(jù)集與中文庫(kù)中,本文模型相對(duì)于CNN 模型、CNN+LSTM 模型識(shí)別性能更好,可有效提升聲紋識(shí)別的準(zhǔn)確率。未來(lái)的研究方向?yàn)椋?/p>

        (1)使用端到端模型進(jìn)行訓(xùn)練,便于將聲學(xué)特征和語(yǔ)音特征結(jié)合進(jìn)行聯(lián)合優(yōu)化,網(wǎng)絡(luò)框架相對(duì)簡(jiǎn)單,可使用更深層次的網(wǎng)絡(luò)和更大的數(shù)據(jù)集;

        (2)對(duì)輸入特征進(jìn)行處理,在提取多個(gè)單一特征后沿對(duì)應(yīng)通道進(jìn)行堆疊,再根據(jù)訓(xùn)練結(jié)果篩選出貢獻(xiàn)度最高特征維度,減少一定的訓(xùn)練難度。

        猜你喜歡
        聲紋識(shí)別注意力語(yǔ)音
        讓注意力“飛”回來(lái)
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        聲紋識(shí)別中的區(qū)分性訓(xùn)練
        淺談一種基于聲紋識(shí)別的教室上課點(diǎn)名系統(tǒng)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于i—vector聲紋識(shí)別上課點(diǎn)名系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        A Beautiful Way Of Looking At Things
        99久久免费国产精品| 人妻秘书被社长浓厚接吻| 国产不卡视频在线观看| 伊甸园亚洲av久久精品| 一本大道久久东京热无码av| 免费高清日本中文| 国产三级c片在线观看| 99精品久久99久久久久| 夜先锋av资源网站| 女高中生自慰污免费网站| 一级黄色一区二区三区视频| 美丽的小蜜桃在线观看| 日本入室强伦姧bd在线观看| 国产精在线| 插入中文字幕在线一区二区三区 | 亚洲午夜看片无码| 日本高清不卡二区三区| 91视色国内揄拍国内精品人妻| 国产精品久久久久久久久久红粉| 午夜无码伦费影视在线观看| 蜜桃av噜噜一区二区三区| 久久精品国产精品亚洲婷婷| 亚洲av免费看一区二区三区| 人妻少妇精品中文字幕专区| 日日碰狠狠添天天爽无码 | 大香伊蕉国产av| 国产情侣一区在线| 精品国产av一区二区三区| 午夜精品久久久久久久久| 无码精品a∨在线观看| 精品一区二区三区免费爱| 国产精品成年人毛片毛片| 免费毛儿一区二区十八岁| 日本做受高潮好舒服视频| 国产在线不卡视频| 日本老熟女一区二区三区| 天天综合网网欲色| 老熟妻内射精品一区| 一区五码在线| 92精品国产自产在线观看48页| 在线视频免费自拍亚洲|