亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度雙向LSTM網(wǎng)絡(luò)的說話人識別

        2020-06-12 09:18:12王華朋
        關(guān)鍵詞:數(shù)據(jù)庫

        王華朋

        (中國刑事警察學(xué)院 聲像資料檢驗(yàn)技術(shù)系,遼寧 沈陽 110854)

        0 引 言

        研究說話人識別[1]的文獻(xiàn)非常多,目前主流的方法是基于i-vector或者GMM-UBM的說話人識別[2,3],并且逐漸出現(xiàn)了傳統(tǒng)方法與深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)相結(jié)合的研究[4],獲得成功的研究之一是使用局部連接網(wǎng)絡(luò)(locally connected networks,LCN)實(shí)現(xiàn)文本相關(guān)的說話人識別[5]。深度神經(jīng)網(wǎng)絡(luò)也被用來作為語音特征提取器來表示說話人模型[6,7],有學(xué)者使用受限玻爾茲曼機(jī)[8]、深度置信網(wǎng)絡(luò)[9]等來開展說話人識別研究。鑒于CNN在計(jì)算機(jī)視覺方面獲得的巨大成功,不少學(xué)者使用CNN來提取語音的聲譜圖特征,進(jìn)行類似于圖像識別的方法,進(jìn)而進(jìn)行文本相關(guān)的說話人識別[10-12]。但是CNN不能充分提取序列數(shù)據(jù)的特征,對于處理時序數(shù)據(jù)的能力不如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)。在RNN的諸多結(jié)構(gòu)設(shè)計(jì)中,LSTM神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的RNN之一。目前,LSTM廣泛應(yīng)用于語種識別[13]、語音情感識別[14,15]、音素分類[16]、語音識別[17,18]、唇語識別[19]等領(lǐng)域。在說話人識別領(lǐng)域,文獻(xiàn)[6]使用LSTM進(jìn)行文本相關(guān)的說話人識別,本文提出使用雙向LSTM深度網(wǎng)絡(luò)進(jìn)行文本無關(guān)的說話人識別,據(jù)作者調(diào)研,目前尚無應(yīng)用深度雙向LSTM網(wǎng)絡(luò)進(jìn)行說話人識別研究報道。

        1 RNN與雙向LSTM

        與前饋網(wǎng)絡(luò)相比,RNN是循環(huán)的,按照時間步進(jìn)行反饋,這使得RNN特別適合學(xué)習(xí)序列信息,因?yàn)镽NN按照時間順序提供了一種記憶模式。經(jīng)典的RNN在當(dāng)前的時間步和之前的時間步建立了直接連接,但是,當(dāng)時間步跨度很大的情況下,這種直連不能有效學(xué)習(xí)時間序列之間的關(guān)系。因?yàn)?,這種架構(gòu)的網(wǎng)絡(luò)具有很多的反向傳播設(shè)置,當(dāng)時間步數(shù)目較大的時候,就會導(dǎo)致梯度消失和爆炸的問題,目前,Hochreiter和Schmidhuber提出的LSTM是解決時間序列的最好方法[20]。許多其他學(xué)者也指出,使用嵌入記憶單元LSTM網(wǎng)絡(luò)結(jié)構(gòu)來保存信息,對于處理較大范圍的信息關(guān)聯(lián)具有更好的性能[17,21]。

        1.1 LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)

        圖1描述了LSTM網(wǎng)絡(luò)的記憶單元。在循環(huán)神經(jīng)網(wǎng)絡(luò)中,通過下面的公式的迭代,從時間步1到時間步T,對輸入向量序列x=(x1,…,xT),計(jì)算隱層向量序列h=(h1,…,hT)和輸出向量序列y=(y1,…,yT)

        ht=φ(Wxhxt+Whhht-1+bh)

        (1)

        yt=Whyht+by

        (2)

        其中,W表示權(quán)重矩陣,比如Wxh表示輸入層到隱含層的權(quán)重矩陣,b表示偏置向量,比如bh表示隱層偏置向量,φ為隱層函數(shù)。φ函數(shù)的運(yùn)算通過下面的公式來實(shí)現(xiàn)

        it=σ(Wxixt+Whiht-1+Wcict-1+bi)

        (3)

        ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

        (4)

        ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

        (5)

        ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

        (6)

        ht=ottanh(ct)

        (7)

        其中,σ為logistic sigmoid函數(shù),i、f、o和c分別為輸入門、遺忘門、輸出門和記憶單元激活向量,它們和隱層向量h具有相同的大小。從記憶單元到門的權(quán)值矩陣(比如Wci)為對角矩陣。

        圖1 LSTM記憶單元

        1.2 雙向LSTM神經(jīng)網(wǎng)絡(luò)

        (8)

        (9)

        (10)

        組合雙向RNN和LSTM即可得到雙向LSTM,該網(wǎng)絡(luò)可處理較大范圍的雙向輸入數(shù)據(jù)。

        圖2 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        2 實(shí)驗(yàn)設(shè)置

        2.1 實(shí)驗(yàn)步驟

        (1)配置實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)采用Matlab2018B軟件運(yùn)行環(huán)境,硬件配置采用i7-6700HQ處理器,8 GB內(nèi)存,單GPU NVIDIA GeForce 940MX顯卡;

        (2)建立具有標(biāo)簽的音頻數(shù)據(jù)庫;

        (3)去除語音文中的靜音段和非語音片段;

        (4)提取語音特征序列;

        (5)基于特征序列訓(xùn)練LSTM網(wǎng)絡(luò);

        (6)在訓(xùn)練集上測量和可視化分類器準(zhǔn)確度;

        (7)創(chuàng)建測試語音庫,對完成訓(xùn)練的LSTM網(wǎng)絡(luò)進(jìn)行性能評測;

        (8)去除測試數(shù)據(jù)庫中的非語音段,產(chǎn)生特征序列并通過訓(xùn)練好的網(wǎng)絡(luò),通過比較預(yù)測標(biāo)簽和說話人真實(shí)標(biāo)簽,生成訓(xùn)練網(wǎng)絡(luò)的測試識別率。

        2.2 數(shù)據(jù)庫

        數(shù)據(jù)庫包含60名20歲左右年齡相仿(年齡差5歲以內(nèi))的男性說話人,每人錄音2次,錄音間隔約為30天,錄音方式為說話人朗讀指定的文本內(nèi)容。錄音信道為固定電話線路,音頻經(jīng)去除靜音段處理后,被分割成5 s時長的音頻文件,采樣率為8000 Hz,每名說話人錄音包含約10個左右的5 s時長的音頻文件,共790個音頻文件。從中隨機(jī)選取70%(550個)的音頻文件作為訓(xùn)練LSTM網(wǎng)絡(luò)的樣本,剩余的30%(240個)音頻文件作為測試語音。

        2.3 語音特征提取

        本文提取了Mel-frequency cepstrum coefficients (MFCC)、Delta MFCC、Delta-Delta MFCC、基頻和諧波能量占比作為訓(xùn)練LSTM的語音特征。MFCC的特征維度為13維,即13維的MFCC、13維的Delta MFCC和13維的Delta-Delta MFCC,加上基頻和諧波特征,共41維語音特征。在語音特征提取過程中,選擇窗的長度為30 ms的漢寧窗,窗之間的重復(fù)度為75%,每40幀語音特征組成一個序列。

        2.4 雙向LSTM網(wǎng)絡(luò)設(shè)置

        本文提出的深層雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)第一層為序列輸入層,輸入數(shù)據(jù)的大小為特征的維度,即41;第二層為具有100個隱層節(jié)點(diǎn)的雙向LSTM網(wǎng)絡(luò),用來傳遞信息到下一層;第三層為Relu層,第四層為具有100個隱層節(jié)點(diǎn)的雙向LSTM網(wǎng)絡(luò),用來輸出序列的最后一個元素;第五層為全連接層,節(jié)點(diǎn)數(shù)目為說話人的數(shù)量;第六層為Softmax層;第七層為分類層。

        網(wǎng)絡(luò)的迭代周期輸入設(shè)置為50,MiniBatchSize設(shè)置為128,即網(wǎng)絡(luò)一次訓(xùn)練128個訓(xùn)練數(shù)據(jù);Shuffle設(shè)置為’every-epoch’,即每個周期訓(xùn)練前都會隨機(jī)選擇訓(xùn)練數(shù)據(jù);LearnRateSchedule設(shè)置為‘piecewise’,即每5個訓(xùn)練周期,學(xué)習(xí)速率按確定因子0.5降低。選擇ADAM(adaptive moment estimation)算法作為深度雙向LSTM網(wǎng)絡(luò)訓(xùn)練算法,因?yàn)樗入S機(jī)梯度下降算法(stochastic gra-dient descent with momentum,SGDM)在RNN網(wǎng)絡(luò)訓(xùn)練中具有更好的性能。

        圖3 基于雙向LSTM的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        3 實(shí)驗(yàn)結(jié)果及分析

        圖4顯示的訓(xùn)練過程的識別準(zhǔn)確度變化曲線,即每次處理完mini-batch的分類準(zhǔn)確度。圖5顯示的是訓(xùn)練損失大小變化曲線,為每次處理完mini-batch的互熵函數(shù)值。分析上述兩圖可得,在迭代30個周期后,上述兩曲線即進(jìn)入收斂狀態(tài),識別準(zhǔn)確率穩(wěn)定在100%附近,互熵函數(shù)值穩(wěn)定在最小值附近,說明本網(wǎng)絡(luò)還可以容納更大規(guī)模的說話人識別,對于組建大規(guī)模數(shù)據(jù)庫識別具有良好的潛力,從另一個方面也反映出該網(wǎng)絡(luò)不容易出現(xiàn)梯度爆炸或消失等問題,具有良好的穩(wěn)定性。測試結(jié)果的識別準(zhǔn)確率為97.92%,這對于只有5 s時長的短語音說話人識別是非常高的結(jié)果,并且本文數(shù)據(jù)庫只是年齡接近的男性話者錄音,如果在實(shí)際應(yīng)用中擴(kuò)大年齡段范圍或存在女性錄音,識別結(jié)果應(yīng)該更高。

        為清晰顯示訓(xùn)練結(jié)果,本文以10人的混淆矩陣為例對結(jié)果進(jìn)行說明,如圖6所示,縱軸表示真實(shí)類,橫軸表示預(yù)測類結(jié)果,圖中數(shù)字代表序列預(yù)測結(jié)果的個數(shù),比如左上角234,表示有234個序列的預(yù)測結(jié)果為“0001 白天明”,每一行數(shù)字之和,表示某一個時長5 s的音頻去除靜音段后組成序列的個數(shù),如果位于對角線上的數(shù)字越大,代表有越多的序列被正確歸類。圖7是按照“多數(shù)決定規(guī)則(majority rule)[22]”的訓(xùn)練結(jié)果,對角線上的數(shù)字代表參與訓(xùn)練的音頻文件的個數(shù),按照多數(shù)決定規(guī)則,所有的訓(xùn)練音頻都被正確分類。圖8、圖9為對應(yīng)的測試集結(jié)果,按照多數(shù)決定規(guī)則,所有音頻文件的分類結(jié)果都是正確的,未出現(xiàn)梯度爆炸或消失的情況。

        圖4 訓(xùn)練過程的識別準(zhǔn)確度變化曲線

        圖5 訓(xùn)練過程損失函數(shù)互熵值變化曲線

        圖6 訓(xùn)練集序列結(jié)果的混淆矩陣

        圖7 訓(xùn)練集單個音頻文件的混淆矩陣

        圖8 測試集序列結(jié)果的混淆矩陣

        圖9 測試集單個音頻文件的混淆矩陣

        為評估該網(wǎng)絡(luò)的抗噪聲干擾特性,本文對數(shù)據(jù)庫中所有音頻文件分別加入不同程度的白噪聲進(jìn)行測試,表1為不同信噪比條件下的測試結(jié)果。在普通辦公室環(huán)境(未加入白噪聲)下,準(zhǔn)確率為97.92%,比使用相同數(shù)據(jù)庫文獻(xiàn)[23]中GMM-UBM方法的準(zhǔn)確率提高1.92%。在信噪比為20 dB的條件下,準(zhǔn)確率為95.83%,在信噪比為10 dB的條件下,準(zhǔn)確率為94.17%,在信噪比為0 dB的條件下,準(zhǔn)確率下降為72.92%。分析可得,只要語音的信噪比在10 dB以上,都可獲得令人滿意的結(jié)果,這對于只有5 s時長的短語音說話人識別,具有良好的實(shí)用價值。

        測試結(jié)果得分為預(yù)測為某一個說話人的概率,其中,包含240個相同說話人語音樣本比對,14 160個不同說話人語音比對樣本。在相同人語音樣本測試中,97.5%的測試樣本的預(yù)測概率大于30%,絕大部分測試樣本的預(yù)測概率在70%以上,如圖10所示,說明預(yù)測結(jié)果能為實(shí)際應(yīng)用提供更大的置信度;在14 160個不同說話人語音樣本比對中,預(yù)測概率大于10%的僅占0.4%,最高值為30%左右,絕大部分的預(yù)測概率都極低,說明錯誤認(rèn)定的幾率非常小,能保證不同人不會被錯誤的認(rèn)定為同一個人,適合在法庭說話人確認(rèn)領(lǐng)域應(yīng)用。

        表1 不同信噪比白噪聲影響下網(wǎng)絡(luò)的正確識別率/%

        圖10 相同說話人語音對預(yù)測概率分布

        4 結(jié)束語

        為拓展深度學(xué)習(xí)在說話人識別領(lǐng)域的應(yīng)用,本文提出了一種端到端的基于深度雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)的說話人識別方法。該網(wǎng)絡(luò)可充分使用語音序列數(shù)據(jù)的前后時間步的信息,增強(qiáng)了網(wǎng)絡(luò)上下層之間的聯(lián)系。在年齡相仿的60人男性漢語數(shù)據(jù)庫中,使用5 s時長的短語音,取得了97.92%的正確識別率。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)還具有更大的容積能力,適合進(jìn)行大規(guī)模數(shù)據(jù)庫的說話人識別任務(wù),并且對白噪聲表現(xiàn)出較強(qiáng)的魯棒性。鑒于基于深度學(xué)習(xí)的說話人識別的強(qiáng)大學(xué)習(xí)能力和抗干擾能力,為進(jìn)一步讓深度學(xué)習(xí)技術(shù)在說話人識別領(lǐng)域走向?qū)嶋H應(yīng)用,實(shí)際情況下常見的混合信道說話人識別是未來的研究方向。

        猜你喜歡
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        數(shù)據(jù)庫
        財經(jīng)(2015年3期)2015-06-09 17:41:31
        數(shù)據(jù)庫
        財經(jīng)(2014年21期)2014-08-18 01:50:18
        數(shù)據(jù)庫
        財經(jīng)(2014年6期)2014-03-12 08:28:19
        數(shù)據(jù)庫
        財經(jīng)(2013年6期)2013-04-29 17:59:30
        成年站免费网站看v片在线| 久久久久亚洲AV无码专| 人妻中文字幕不卡精品| 国产丝袜一区丝袜高跟美腿| 亚洲福利二区三区四区| 国产精品国产三级国产专播下| 亚洲av无码成人网站在线观看 | 亚洲人成无码区在线观看| 国产午夜福利短视频| 欧美日韩国产在线人成dvd| 日韩精品免费在线视频一区| 乱码1乱码2美美哒| 亚洲精品国偷拍自产在线观看蜜臀| 亚洲AV无码专区一级婬片毛片| 国产一区二区欧美丝袜| 亚洲精品国产av成拍色拍| 婷婷久久精品国产色蜜蜜麻豆| 成年美女黄的视频网站| 爱情岛永久地址www成人| 午夜tv视频免费国产区4| 在线亚洲免费精品视频| 久久精品国产亚洲av麻豆床戏| 亚洲av成人网| 色屁屁www影院免费观看入口| 国产主播在线 | 中文| 亚洲中文字幕黄色小视频| 国产精品亚洲一级av第二区| 国产人与zoxxxx另类| 国产成人AV无码精品无毒| 日韩精品资源在线观看免费| 三级全黄裸体| 久久国内精品自在自线图片| 亚洲国产精品久久久天堂不卡海量| 国产剧情亚洲一区二区三区| 日韩三级一区二区不卡| 国产如狼似虎富婆找强壮黑人| 亚洲偷自拍另类图片二区| 国产91久久精品成人看网站| 人妻 偷拍 无码 中文字幕| 美女黄18以下禁止观看| 少妇勾引视频网站在线观看|