亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別

        2020-11-12 10:39:34袁三男
        關(guān)鍵詞:模型

        劉 虹 袁三男

        (上海電力大學(xué)電子與信息工程學(xué)院 上海 200090)

        0 引 言

        自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)是一種將人類語(yǔ)音轉(zhuǎn)換成文字的技術(shù),語(yǔ)音識(shí)別的任務(wù)主要有聲紋識(shí)別、關(guān)鍵詞識(shí)別、語(yǔ)言辨識(shí)、連續(xù)語(yǔ)音識(shí)別[1]。語(yǔ)音識(shí)別屬于模式識(shí)別,主要通過(guò)模型算法識(shí)別聲音向量,即語(yǔ)音的特征參數(shù),最終給出識(shí)別結(jié)果,而語(yǔ)音識(shí)別的最終目標(biāo)是能夠在不同環(huán)境下,依舊能準(zhǔn)確地識(shí)別出說(shuō)話人說(shuō)的內(nèi)容[2]。早期語(yǔ)音識(shí)別的聲學(xué)模型主要是混合高斯隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),但是該模型在嘈雜環(huán)境下的識(shí)別效果較差,無(wú)法滿足現(xiàn)代自動(dòng)語(yǔ)音識(shí)別的要求[3]。從2009年開(kāi)始,深度學(xué)習(xí)的發(fā)展使得大詞匯量的語(yǔ)音識(shí)別成為可能?;谏疃壬窠?jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的系統(tǒng)取代了GMM-HMM模型成為了主流語(yǔ)音識(shí)別的模型[4],但由于模型本身的缺陷,語(yǔ)音識(shí)別的識(shí)別率難以繼續(xù)得到提高。由于語(yǔ)音是上下文相關(guān)的,因此長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的出現(xiàn)大大提高了語(yǔ)音識(shí)別的準(zhǔn)確度,LSTM有著強(qiáng)大的序列建模能力[5]。同時(shí),Graves等[6]將聯(lián)結(jié)時(shí)序分類技術(shù)引入到循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,完成了序列的輸入和輸出自動(dòng)對(duì)齊的任務(wù)。目前識(shí)別率較好的語(yǔ)音識(shí)別的模型主要將CNN和LSTM結(jié)合到一起,CNN用來(lái)提取特征,LSTM對(duì)序列建模,但是CNN的層數(shù)一般是兩到三層,表達(dá)能力有限,提取上下文的相關(guān)性主要還是依靠LSTM網(wǎng)絡(luò)。但是LSTM的記憶模塊較小,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度很慢,且實(shí)時(shí)性較差。

        本文提出一種基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型,由于卷積神經(jīng)早期用在語(yǔ)音識(shí)別中主要是提取特征,卷積層數(shù)也較少,限制了卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音識(shí)別的表達(dá)能力。因此,本文結(jié)合多尺度分析和深度殘差網(wǎng)絡(luò),提取語(yǔ)音特征圖中不同尺度的特征,將這些特征進(jìn)行融合,最后結(jié)合聯(lián)結(jié)時(shí)序分類算法構(gòu)建端到端的中文語(yǔ)音識(shí)別模型,擺脫序列建模對(duì)LSTM的依賴。

        1 多尺度殘差深度卷積網(wǎng)絡(luò)

        隨著激活函數(shù)、批量歸一化和殘差機(jī)制等各類算法的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)向著更深層次的方向發(fā)展,圖像識(shí)別的準(zhǔn)確率得到了進(jìn)一步的提升[7]。但在語(yǔ)音識(shí)別中,目前主流神經(jīng)網(wǎng)絡(luò)框架中的卷積層的層數(shù)只有幾層,序列建模仍然依賴LSTM網(wǎng)絡(luò),限制了卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別領(lǐng)域中的發(fā)展。

        1.1 卷積神經(jīng)網(wǎng)絡(luò)

        CNN主要由卷積層、池化層、全連接層、激活函數(shù)組成,卷積層用來(lái)提取特征參數(shù),池化層對(duì)特征圖進(jìn)行壓縮,而全連接層充當(dāng)分類器的作用[8]。池化層又分為最大池化和平均池化,最大池化采用特征圖的局部最大值達(dá)到特征降維的目的,在有噪聲的語(yǔ)音中,相鄰幀的時(shí)頻圖的局部最大值通常為語(yǔ)音,局部最小值為噪聲,最大池化層會(huì)對(duì)含噪語(yǔ)音的時(shí)頻圖進(jìn)行篩選,提高語(yǔ)音的分辨率,降低噪聲,因此本文采用最大池化層[9]。CNN的激活函數(shù)一般使用線性整流函數(shù)(Rectifiler Linear Unit,ReLU)。批量歸一化(Batch Normalization,BN)技術(shù)的出現(xiàn)有效地解決了神經(jīng)網(wǎng)絡(luò)內(nèi)部協(xié)變量轉(zhuǎn)移的問(wèn)題,大大加快了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度[10]。隨機(jī)失活層(Dropout)使網(wǎng)絡(luò)的泛化性能得到提高,隨機(jī)響應(yīng)網(wǎng)絡(luò)的節(jié)點(diǎn),保證了網(wǎng)絡(luò)的稀疏性[11],本文同時(shí)引入空洞卷積,在相同的卷積核大小的情況下,空洞卷積通過(guò)改變空洞率的大小來(lái)改變感受野的大小,網(wǎng)絡(luò)的參數(shù)量不變的同時(shí),又獲得更多的上下文信息,空洞卷積實(shí)際的卷積核大小計(jì)算公式如下:

        K=k+(k-1)(r-1)

        (1)

        式中:k為原始卷積核的大小;r為擴(kuò)張率;K為空洞卷積的實(shí)際感受野大小。

        1.2 殘差學(xué)習(xí)機(jī)制

        批量歸一化和Dropout層的出現(xiàn)加深了CNN的深度,通常網(wǎng)絡(luò)越深,訓(xùn)練精度越高。但是隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)參數(shù)變得難以優(yōu)化[12],訓(xùn)練精度反而會(huì)下降。深度殘差網(wǎng)絡(luò)是2015年提出的深度卷積網(wǎng)絡(luò),其特點(diǎn)是簡(jiǎn)單高效,并能有效地解決網(wǎng)絡(luò)深度變深以后的網(wǎng)絡(luò)性能退化的問(wèn)題[13]。殘差網(wǎng)絡(luò)通過(guò)學(xué)習(xí)輸入到輸出的目標(biāo)函數(shù)與原輸入的殘差量,將殘差量與原始輸入量相加,得到最終的目標(biāo)映射函數(shù),若輸入變量為x,目標(biāo)輸出的實(shí)際映射為H(xl),則殘差映射F(xl,Wl)可以定義為:

        F(xl,Wl)=H(xl)-xl

        (2)

        式中:xl為l層的輸入量;Wl為l層的權(quán)重矩陣。通過(guò)“捷徑連接”的方式,直接把輸入xl傳到輸出作為初始結(jié)果,輸出結(jié)果為H(xl)=F(xl,Wl)+xl,當(dāng)F(xl,Wl)=0時(shí),H(xl)=xl。

        1.3 多尺度特征

        語(yǔ)音當(dāng)前的狀態(tài),與前后的狀態(tài)都有關(guān),網(wǎng)絡(luò)層數(shù)越多,丟失的細(xì)節(jié)信息越多,因此本文引入多尺度特征。圖1為一段純凈語(yǔ)音的時(shí)頻圖,圖2為加了噪聲的語(yǔ)音時(shí)頻圖,兩幅圖所表示的語(yǔ)音內(nèi)容相同,橫向?yàn)闀r(shí)間軸,縱向?yàn)轭l率軸,該段語(yǔ)音有16 s,時(shí)頻圖的時(shí)間軸較長(zhǎng)。時(shí)頻圖反映了語(yǔ)音的信號(hào)強(qiáng)度在不同頻段內(nèi)隨時(shí)間的變化情況。不同頻率中顏色深的地方隨著時(shí)間的推移,延長(zhǎng)成聲紋,由圖1可以看出,語(yǔ)音信號(hào)的能量大多集中在低頻,高頻能量較少,但高頻能量中包含很多語(yǔ)音的細(xì)節(jié)部分,這些細(xì)節(jié)部分也會(huì)影響語(yǔ)音識(shí)別的結(jié)果。由圖2可知,在噪聲背景下,語(yǔ)音時(shí)頻圖的紋理受到了干擾,但是高低頻段某些紋理特征和輪廓信息依舊存在,因此模型既要能提取到細(xì)節(jié)信息,又要提取整體的輪廓信息。本文采用不同大小的卷積核以及不同空洞率的空洞卷積獲取語(yǔ)音信號(hào)的細(xì)節(jié)信息和上下文相關(guān)性,卷積核越大,感受野越大,并對(duì)語(yǔ)音的時(shí)間維度和頻率維度建模。圖3中的scale1和scale2為兩個(gè)多尺度子空間,scale1的卷積核大小為3,scale2的卷積核大小為5,scale1和scale2各包含兩個(gè)殘差網(wǎng)絡(luò),Conv表示卷積層,Max_pool表示最大池化層,箭頭所示即為殘差結(jié)構(gòu),殘差網(wǎng)絡(luò)采用“捷徑連接”的方式,相同的特征圖在兩個(gè)不同尺度空間下會(huì)有不同的表達(dá)形式,達(dá)到信息互補(bǔ)的目的。因此將這兩個(gè)尺度空間融合,得到具有較好語(yǔ)義能力特征參數(shù),從低層往高層逐層提取特征,得到全局信息,既可以得到相鄰幀之間的相關(guān)性,也可以獲取不相鄰幀之間的相關(guān)性。若scale1網(wǎng)絡(luò)的輸出為fs1(x),scale2網(wǎng)絡(luò)的輸出為fs2(x),則融合后網(wǎng)絡(luò)輸出為fs1(x)+fs2(x)。

        圖1 語(yǔ)音信號(hào)的時(shí)頻圖

        圖2 含噪語(yǔ)音的時(shí)頻圖

        圖3 多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型

        2 連接時(shí)序CTC的應(yīng)用

        CTC通常和LSTM以及RNN一起建模,目前主流的語(yǔ)音識(shí)別模型都含有LSTM或者RNN,但LSTM和RNN的訓(xùn)練受到計(jì)算機(jī)計(jì)算能力和內(nèi)存的限制,訓(xùn)練周期較長(zhǎng),不利于參數(shù)調(diào)整和優(yōu)化,CNN可借助其強(qiáng)大的并行運(yùn)算能力大大縮短訓(xùn)練周期。語(yǔ)音識(shí)別中常用HMM進(jìn)行幀對(duì)齊,將每一幀數(shù)據(jù)對(duì)齊到HMM狀態(tài)下[14],這種強(qiáng)制對(duì)齊的方法并不合理,因?yàn)檎Z(yǔ)音中靜音狀態(tài)并沒(méi)有對(duì)應(yīng)的標(biāo)簽,而CTC不需要預(yù)先將輸入和輸出強(qiáng)制對(duì)齊。

        在給定輸入序列下X,經(jīng)過(guò)Softmax層輸出之后,網(wǎng)絡(luò)的輸出為P(qt|X),qt為t時(shí)刻的輸出,則標(biāo)簽序列l(wèi)為所有路徑概率總和為:

        (3)

        式中:Γ(qt)為標(biāo)簽序列的多對(duì)一的映射。因?yàn)橥粋€(gè)標(biāo)簽序列可能有多條路徑與其對(duì)應(yīng),所以需要去掉路徑中的重復(fù)的標(biāo)簽和空白標(biāo)簽。qt∈A,t=1,2,…,T,A為加了空白標(biāo)簽“—”的標(biāo)簽集合,輸出序列中概率最大的標(biāo)注序列為:

        (4)

        CTC的損失函數(shù)是所有標(biāo)簽的負(fù)對(duì)數(shù)概率之和,可以通過(guò)反向傳播訓(xùn)練CTC網(wǎng)絡(luò):

        H(x)=-logP(l|X)

        (5)

        本文所用到的模型框架如圖3所示,輸入為語(yǔ)音的時(shí)頻特征(500×250),分別輸入scale1和scale2兩個(gè)尺度空間,提取不同尺度的特征,兩個(gè)尺度空間融合后,將融合后的特征參數(shù)輸入全連接層。全連接層共2層,第一層有256個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),第二層網(wǎng)絡(luò)節(jié)點(diǎn)的個(gè)數(shù)為2 667個(gè),加上了一個(gè)空白字符。通過(guò)Softmax層連接CTC模型,學(xué)習(xí)率為0.001,batchsize為8,所有卷積層和池化層后都添加了dropout層。CTC在海量訓(xùn)練數(shù)據(jù)的條件下不再需要語(yǔ)言模型,因此本文的模型直接以漢字為建模單元,構(gòu)建端到端的語(yǔ)音識(shí)別模型。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)

        本文基于THCHS30進(jìn)行實(shí)驗(yàn),THCHS30數(shù)據(jù)庫(kù)是由清華大學(xué)發(fā)布的中文語(yǔ)音庫(kù),有35小時(shí)的語(yǔ)音數(shù)據(jù),數(shù)據(jù)庫(kù)內(nèi)容大部分來(lái)自新聞?wù)Z料,全部為中文普通話,每個(gè)音頻16 s左右。將該數(shù)據(jù)集中10 000句作為訓(xùn)練集,893句作為驗(yàn)證集,2 495句作為測(cè)試集。該數(shù)據(jù)集還提供了含有噪聲的語(yǔ)音數(shù)據(jù),噪聲環(huán)境主要是咖啡館、汽車內(nèi)噪聲和白噪聲,可用于模型在不同噪聲環(huán)境下的性能測(cè)試。實(shí)驗(yàn)采用的操作系統(tǒng)是Ubuntu 16.04,GPU為Rtx2080ti,實(shí)驗(yàn)平臺(tái)為Tensorflow 3,Python 3.6。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        (1) 不同模型的對(duì)比。將本文模型與BLSTM-CTC模型、DCNN模型、CNN-LSTM模型進(jìn)行對(duì)比。DCNN模型即scale1和scale2。

        BLSTM-CTC模型的輸入特征為600×39維的二階差分MFCC特征參數(shù),其中BLSTM聲學(xué)模型包含3層隱藏層,第一層和第二層包含共256個(gè)前向和后向的LSTM單元,第三層為512個(gè)前向和后向的LSTM單元。解碼單元CTC模型,batch size設(shè)置為8,學(xué)習(xí)率為0.001。

        DCNN1模型的結(jié)構(gòu)采用scale1尺度空間的結(jié)構(gòu),卷積核大小為3,經(jīng)過(guò)兩個(gè)殘差網(wǎng)絡(luò)和最后一層池化層后,輸入三層全連接層,第一層全連接層有256個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),第二層有512個(gè)神經(jīng)網(wǎng)絡(luò)單元,第三層有2 667個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),batch size為8,學(xué)習(xí)率為0.001。DCNN2模型采用scale2尺度空間的結(jié)構(gòu),卷積核大小為5,全連層結(jié)構(gòu)與DCNN1結(jié)構(gòu)一致。

        CNN-LSTM模型結(jié)構(gòu)由三層卷積、三層池化層、兩層BLSTM隱藏層、一層全連接層組成。輸入特征為600×39的二階差分MFCC特征參數(shù)。卷積核大小為3,池化層選擇1×3,只對(duì)頻率維度進(jìn)行池化。第一層隱藏層有256個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),第二層有512個(gè)神經(jīng)網(wǎng)絡(luò)單元,全連接層有2 667個(gè)節(jié)點(diǎn)。batch size為8,學(xué)習(xí)率為0.001。

        本文提出的語(yǔ)音識(shí)別模型的識(shí)別率比單一尺度空間、BLSTM網(wǎng)絡(luò)和CNN-LSTM網(wǎng)絡(luò)的都高,相對(duì)于BLSTM模型,驗(yàn)證集和測(cè)試集的識(shí)別率都提高9%左右,相對(duì)于DCNN1和DCNN2模型,識(shí)別率分別提高5%和10%左右,相對(duì)于CNN-LSTM網(wǎng)絡(luò),識(shí)別率提高3%左右。不同模型下的語(yǔ)音識(shí)別率如表1所示,只含CNN的語(yǔ)音識(shí)別模型每輪的訓(xùn)練時(shí)間比BLSTM模型縮短6倍左右,比CNN-LSTM模型縮短4倍左右。

        表1 不同模型下的語(yǔ)音識(shí)別率

        (2) 不同模型的抗噪聲性能對(duì)比。本文同時(shí)還驗(yàn)證不同模型的抗噪聲性能,數(shù)據(jù)集中包含咖啡館噪聲(cafe),汽車噪聲(car)和白噪聲(white),信噪比為0 dB。將這些噪聲加入待識(shí)別的語(yǔ)音中,實(shí)驗(yàn)結(jié)果如表2所示,CNN有一定的抗噪聲性能,而本文提出的multi-scale DCNN 模型的抗噪聲性能比BLSTM網(wǎng)絡(luò)、DCNN網(wǎng)絡(luò)和CNN-LSTM模型都要好,更具有實(shí)用性。

        表2 不同噪聲類型下的語(yǔ)音識(shí)別率 %

        (3) 低信噪比下的識(shí)別率變化。本文還對(duì)比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經(jīng)網(wǎng)絡(luò)比BLSTM網(wǎng)絡(luò)的抗噪聲性能更加穩(wěn)定,噪聲越強(qiáng),BLSTM網(wǎng)絡(luò)的識(shí)別率較差并且識(shí)別率下降更快,不利于實(shí)際生活中的應(yīng)用。而DCNN網(wǎng)絡(luò)和CNN-LSTM網(wǎng)絡(luò)的抗噪聲性能比BLSTM網(wǎng)絡(luò)好,在cafe和car噪聲下,變化相對(duì)平緩,但是在白噪聲下,識(shí)別率也下降較快。因此,本文模型具有更好的魯棒性。

        圖4 不同信噪比下不同模型的誤碼率(cafe)

        圖5 不同信噪比下不同模型的誤碼率(car)

        圖6 不同信噪比下不同模型的誤碼率(white)

        4 結(jié) 語(yǔ)

        本文針對(duì)傳統(tǒng)語(yǔ)音識(shí)別模型訓(xùn)練時(shí)間較長(zhǎng)以及抗噪聲性能較差的問(wèn)題,提出多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音識(shí)別模型。該模型不僅加快網(wǎng)絡(luò)的訓(xùn)練速度,而且提高語(yǔ)音識(shí)別的識(shí)別率和抗噪聲性能。為了提取更多的上下文信息,還引入空洞卷積和多尺度特征,增大感受野,提升網(wǎng)絡(luò)的泛化性能,降低過(guò)擬合的概率。實(shí)驗(yàn)證明,該模型相對(duì)于傳統(tǒng)的語(yǔ)音識(shí)別的模型,有更好的穩(wěn)定性和實(shí)用性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        人妻久久久一区二区三区蜜臀| 日本高清在线播放一区二区三区| 精品国产亚洲av成人一区| 91精品国产91综合久久蜜臀 | 亚洲国产日韩a在线乱码| 大肉大捧一进一出好爽视色大师| 伊人久久大香线蕉在观看| 亚洲国产都市一区二区| 午夜视频在线观看一区二区小| 精品亚洲一区二区三区在线观看 | 国产一区二区三区在线影院| 97久久婷婷五月综合色d啪蜜芽| 一本一道久久a久久精品综合| 国产精品青草久久久久婷婷| 国产精品久久一区二区蜜桃| 丰满少妇人妻无码| 人妻忍着娇喘被中进中出视频| 99精品欧美一区二区三区美图| 日本超骚少妇熟妇视频| 无码免费无线观看在线视| 亚洲人午夜射精精品日韩| 亚洲精品美女久久久久久久| 日本一二三区在线视频观看| 欧美性受xxxx黑人猛交| 一区二区传媒有限公司 | 免费做爰猛烈吃奶摸视频在线观看| 男女高潮免费观看无遮挡| 五月激情四射开心久久久| 又粗又硬又大又爽免费视频播放| 天天av天天爽无码中文| 中文字幕日本韩国精品免费观看| 亚洲午夜狼人综合影院| 精品一区二区三区免费播放| 亚洲乱码少妇中文字幕| 99精品人妻少妇一区二区三区 | 亚洲av无码国产精品永久一区| 国产精品原创巨作AV女教师| 亚洲一区二区三区在线| 人妻夜夜爽天天爽三区丁香花 | 无码国产精品一区二区免费模式| 亚洲精品理论电影在线观看|