亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別算法

        2020-06-08 10:26:50葛言碌張澎孫杰陳宇
        電腦知識(shí)與技術(shù) 2020年10期
        關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別

        葛言碌 張澎 孫杰 陳宇

        摘要:由于傳統(tǒng)語(yǔ)音識(shí)別算法識(shí)別耗時(shí)長(zhǎng)且準(zhǔn)確率低,該文提出了一種基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行語(yǔ)音識(shí)別的方法。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行記憶,是一種特殊的神經(jīng)網(wǎng)絡(luò),它在NLP領(lǐng)域取得了很大的成功。相比于單向神經(jīng)循環(huán)網(wǎng)絡(luò),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在識(shí)別的正確率上有著更大的優(yōu)勢(shì)。實(shí)驗(yàn)證明,相比于單獨(dú)的SGMM,DNN等語(yǔ)音識(shí)別算法,雙向循環(huán)神經(jīng)網(wǎng)絡(luò)算法對(duì)語(yǔ)音識(shí)別的錯(cuò)誤率更低,對(duì)語(yǔ)音識(shí)別的研究具有重大意義。

        關(guān)鍵詞:語(yǔ)音識(shí)別;雙向循環(huán)神經(jīng)網(wǎng)絡(luò);深度神經(jīng)網(wǎng)絡(luò);遞歸神經(jīng)網(wǎng)絡(luò)

        中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)10-0193-03

        語(yǔ)音識(shí)別是指通過(guò)信息技術(shù)將語(yǔ)音這一音頻轉(zhuǎn)化成文字。如今互聯(lián)網(wǎng)急速發(fā)展,語(yǔ)音識(shí)別也是人工智能方面炙手可熱的一個(gè)重要研究分支,在近些年來(lái)也在不斷地進(jìn)步發(fā)展。在現(xiàn)實(shí)應(yīng)用的過(guò)程中,語(yǔ)音識(shí)別經(jīng)常與翻譯,交流,聲控等實(shí)際應(yīng)用相結(jié)合,提供一個(gè)通過(guò)語(yǔ)音實(shí)現(xiàn)人與機(jī)器之間的自由交互方法。

        1933年,西班牙的神經(jīng)生物學(xué)家Rafael Lorente de N6發(fā)現(xiàn)了大腦皮層的解剖結(jié)構(gòu)允許刺激在神經(jīng)回路中循環(huán)傳遞,他因這一發(fā)現(xiàn)提出了反響回路假設(shè)。在此之后,美國(guó)學(xué)者JohnHopfield基于Little的神經(jīng)數(shù)學(xué)模型使用二元節(jié)點(diǎn)提出了有結(jié)合存儲(chǔ)能力的神經(jīng)網(wǎng)絡(luò)——Hopfield神經(jīng)網(wǎng)絡(luò)。接著MichaelI.Jordan基于Hopfield網(wǎng)絡(luò)結(jié)合存儲(chǔ)這一概念,在分布式并行處理的理論下建立了新的循環(huán)神經(jīng)網(wǎng)絡(luò)——Jordan網(wǎng)絡(luò)。1991年,Sepp Hochreiter發(fā)現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)有長(zhǎng)期依賴這一問(wèn)題,為解決這個(gè)問(wèn)題,引入了大量?jī)?yōu)化理論,并且還衍生了很多改進(jìn)后的算法,其中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)就是其中比較典型的一個(gè)。循環(huán)神經(jīng)網(wǎng)絡(luò)剛誕生就被用于語(yǔ)音識(shí)別這一功能上,但它的表現(xiàn)不佳。因此在二十世紀(jì)90年代的早期,有學(xué)者曾經(jīng)嘗試把SRN與其他的概率模型,如隱馬爾可夫模型結(jié)合來(lái)提升其功能。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提出后循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)自然語(yǔ)言的處理能力得到了顯著提高。怛在20世紀(jì)90年代,由于當(dāng)時(shí)的時(shí)代背景,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)成果并沒(méi)有得到大規(guī)模的推廣被人使用。在進(jìn)入21世紀(jì)以后,伴隨深度學(xué)習(xí)方法的逐漸成熟與被人接受,對(duì)數(shù)據(jù)計(jì)算能力的顯著提升與各中特征學(xué)習(xí)技術(shù)的不斷出現(xiàn),結(jié)構(gòu)復(fù)雜但實(shí)用性很強(qiáng)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)逐漸在自然語(yǔ)言處理的相關(guān)問(wèn)題中嶄露頭角,并逐漸成為語(yǔ)音識(shí)別方面的一個(gè)重要算法。

        本文主要應(yīng)用的是,以雙向循環(huán)神經(jīng)網(wǎng)絡(luò)為核心,與動(dòng)態(tài)規(guī)劃,深度神經(jīng)網(wǎng)絡(luò),快速傅里葉變換等算法相結(jié)合對(duì)語(yǔ)音進(jìn)行識(shí)別。實(shí)驗(yàn)表明,采用以雙向循環(huán)神經(jīng)網(wǎng)絡(luò)為核心的算法能夠使語(yǔ)音識(shí)別的錯(cuò)誤率更低,實(shí)用性更強(qiáng)。

        1基本理論

        1.1循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

        循環(huán)神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的一種,它是類比于我們的認(rèn)知而產(chǎn)生的一種觀點(diǎn)。由于人的認(rèn)知受過(guò)去的經(jīng)歷影響,循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)不同的是:它不只考慮上一時(shí)刻的輸入,而且賦予了網(wǎng)絡(luò)對(duì)前面的內(nèi)容的一種“記憶”功能。

        RNN的提出是由于研究發(fā)現(xiàn)一個(gè)序列在某一時(shí)刻的輸出與之前的輸出有不可分割的關(guān)系,所以叫作循環(huán)神經(jīng)網(wǎng)絡(luò)。其具體表現(xiàn)在網(wǎng)絡(luò)會(huì)對(duì)之前的有關(guān)信息儲(chǔ)存并將其應(yīng)用于當(dāng)前輸出的相關(guān)計(jì)算中,簡(jiǎn)而言之就是隱藏層之間的節(jié)點(diǎn)是有連接的。

        1.2深度神經(jīng)網(wǎng)絡(luò)(DNN)

        神經(jīng)網(wǎng)絡(luò)技術(shù)誕生在20世紀(jì)50-60年代,在那時(shí)它叫感光機(jī)。它分為三部分:輸入層,隱藏層,輸出層。在輸入層有已經(jīng)轉(zhuǎn)換成特征向量的輸入信號(hào),然后它會(huì)在隱藏層中經(jīng)過(guò)處理,處理完后再傳人輸出層,在輸出層得到分類結(jié)果。但是因?yàn)樗鼘?duì)比較復(fù)雜的函數(shù)處理起來(lái)較顯無(wú)力,深度神經(jīng)網(wǎng)絡(luò)也就應(yīng)運(yùn)而生。在眾多層中第一層是輸入層,負(fù)責(zé)特征向量的輸入,其他的除了最后一層,中間的若干層都是隱藏層,而最后一層是輸出層。所以DNN也可以理解為是一種有許多隱藏層的神經(jīng)網(wǎng)絡(luò)。

        DNN值中,層層間都是連接的,每一層的每一個(gè)神經(jīng)元都與和這一層相鄰的層直接相連。深度神經(jīng)網(wǎng)絡(luò)看似非常復(fù)雜,但是以單元的角度來(lái)看其實(shí)也都是由若干個(gè)重復(fù)的部分組成的。

        DNN與大多數(shù)傳統(tǒng)意義上的機(jī)器學(xué)習(xí)算法并不一樣,它不需要人工干預(yù)就可以進(jìn)行自動(dòng)特征提取,在對(duì)沒(méi)有標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),深層網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)層抽取樣本的輸入來(lái)自動(dòng)學(xué)習(xí)特征。深度神經(jīng)網(wǎng)絡(luò)處理和學(xué)習(xí)大量沒(méi)有標(biāo)記的數(shù)據(jù)的能力相比較于之前的其他各個(gè)算法還是有很顯著的優(yōu)勢(shì)的。但與此同時(shí),也有一定的缺陷,DNN在訓(xùn)練模型時(shí)相比于傳統(tǒng)方法要耗費(fèi)更長(zhǎng)的時(shí)間,隨之而來(lái)的成本也比傳統(tǒng)方法更高。

        1.3梅爾頻率倒譜系數(shù)(MFCC)

        為了讓電腦識(shí)別我們的音頻數(shù)據(jù),我們首先要將音頻數(shù)據(jù)從時(shí)域轉(zhuǎn)到頻域,這讓才能夠提取特征,而MFCC是語(yǔ)音識(shí)別中廣泛使用的特征。

        對(duì)于一段音頻文件我們將其分為很多幀,每幀經(jīng)過(guò)快速傅里葉變換得到一個(gè)頻譜,頻譜能夠反映信號(hào)頻率與能量間的關(guān)系。在具體繪圖時(shí),我們對(duì)各譜線的振幅都做了對(duì)數(shù)計(jì)算,是為了使振幅較低的成分相對(duì)振幅較高的部分更加明顯,這就是對(duì)數(shù)振幅譜,這類頻譜圖更便于觀察在低振幅噪聲中的周期信號(hào)。語(yǔ)音有比較常用的頻率,也就是重要頻率,我們稱這樣的頻率形成的峰為共振峰,這類峰也可以看作一種辨識(shí)符號(hào),通過(guò)它我們可以來(lái)區(qū)分聲音,這也是我們要將其提取的原因。這樣我們可以得到一段語(yǔ)音的頻譜,但人的聽(tīng)覺(jué)只能聽(tīng)到少數(shù)頻率的聲音,對(duì)于很多頻率的聲音我們是聽(tīng)不到的。梅爾頻率分析就是由于人在這一方面的特點(diǎn)而產(chǎn)生的,實(shí)驗(yàn)證明了人只能聽(tīng)見(jiàn)在坐標(biāo)軸上并不連續(xù)的某些頻率。并且不同頻率密度不同。大致滿足低頻密集高頻稀疏這一特點(diǎn)。MFCC通過(guò)這一點(diǎn)將我們?nèi)粘V械囊纛l轉(zhuǎn)化成為特征向量,每一個(gè)向量就可以代替某一幀,作為其特征。

        1.4雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

        由于普通的循環(huán)神經(jīng)網(wǎng)絡(luò)在很多方面有缺陷,因此提出了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)這一概念。因?yàn)楹芏嗑唧w的事情是需要結(jié)合未來(lái)的數(shù)據(jù)才能得到答案的,而單向循環(huán)神經(jīng)網(wǎng)絡(luò)只關(guān)心與過(guò)去的數(shù)據(jù),它并不能實(shí)現(xiàn)這一效果。BRNN是又兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)相反方向合并而成,并且這兩個(gè)相反方向的單向循環(huán)神經(jīng)網(wǎng)絡(luò)都會(huì)和輸出層直接相接觸。所以為了結(jié)合未來(lái)數(shù)據(jù)增添了反向循環(huán)神經(jīng)網(wǎng)絡(luò),兩個(gè)方向的網(wǎng)絡(luò)結(jié)合到一起形成BRNN在過(guò)去與未來(lái)共同基礎(chǔ)下決定輸出的治愈后答案,使我們最后得到的結(jié)果更加的準(zhǔn)確。

        雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)由向前和向后層共同連接輸出層。對(duì)于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)它的隱含層,向前推算跟單向的循環(huán)神經(jīng)網(wǎng)絡(luò)是一樣的。對(duì)于任何一個(gè)時(shí)間t,它的輸入會(huì)同時(shí)提供給兩個(gè)方向相反的單向循環(huán)神經(jīng)網(wǎng)絡(luò),輸出也將由這兩個(gè)單向循環(huán)神經(jīng)網(wǎng)絡(luò)共同來(lái)決定。這種共同決定的方式也注定著帶來(lái)優(yōu)勢(shì)和劣勢(shì)。優(yōu)勢(shì)是兼顧全局必定能使他做出正確決策的概率將會(huì)提高,而劣勢(shì)則是每次輸出他的判斷其實(shí)會(huì)變得很復(fù)雜,相應(yīng)的也會(huì)付出更多的時(shí)間與成本了。

        2實(shí)驗(yàn)過(guò)程及結(jié)果

        2.1實(shí)驗(yàn)過(guò)程

        本實(shí)驗(yàn)采用的公共數(shù)據(jù)集是清華大學(xué)中文語(yǔ)料庫(kù)THCHS-30,這個(gè)數(shù)據(jù)集包含一個(gè)時(shí)長(zhǎng)25小時(shí)共包含10000句子近20萬(wàn)詞的訓(xùn)練集,一個(gè)時(shí)長(zhǎng)2小時(shí)14分893個(gè)句子一萬(wàn)七千多詞的開(kāi)發(fā)集與一個(gè)6小時(shí)15分2495個(gè)句子近5萬(wàn)詞的測(cè)試集。

        選擇完數(shù)據(jù)集后,采用上文提到的流程進(jìn)行語(yǔ)音識(shí)別,通過(guò)基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法對(duì)其進(jìn)行訓(xùn)練和測(cè)試并得到實(shí)驗(yàn)結(jié)果。其實(shí)驗(yàn)流程具體如下圖:

        2.2實(shí)驗(yàn)結(jié)果

        在具體的實(shí)驗(yàn)中,我們首先用快速傅里葉變換對(duì)所選的樣本進(jìn)行特征提取,接下來(lái)用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)提取出來(lái)的MFCC特征數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。

        由于單獨(dú)的一個(gè)方法的錯(cuò)誤率并不能體現(xiàn)我們的算法是否具有優(yōu)勢(shì),所以為了確認(rèn)這一點(diǎn),所以我還同時(shí)分別做了以DNN和RNN為核心的算法對(duì)測(cè)試集來(lái)測(cè)試并進(jìn)行對(duì)比。經(jīng)過(guò)試驗(yàn),得到了下表的錯(cuò)誤率對(duì)比。

        通過(guò)觀察由我們實(shí)際實(shí)驗(yàn)得到的結(jié)果表2,我們可以發(fā)現(xiàn)單向循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的錯(cuò)誤率是要低于比較傳統(tǒng)的DNN的,這也體現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中是能起到一定的作用的。而且BRNN的錯(cuò)誤率明顯低于RNN的錯(cuò)誤率,說(shuō)明雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的準(zhǔn)確性是要顯著比單向循環(huán)神經(jīng)網(wǎng)絡(luò)要高的。這一點(diǎn)也體現(xiàn)了語(yǔ)音識(shí)別方面當(dāng)前語(yǔ)音對(duì)應(yīng)的文字跟之后的語(yǔ)音是有很大關(guān)系的,結(jié)合之后的語(yǔ)音可以很明顯地提高語(yǔ)音識(shí)別的正確率。

        3結(jié)論

        本文采用基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法對(duì)模型進(jìn)行訓(xùn)練。首先和傳統(tǒng)的語(yǔ)音識(shí)別方法一樣我們先用FFT輔助提取出MFCC并加以識(shí)別,識(shí)別得到一個(gè)特征向量將它轉(zhuǎn)換為文字并輸出?;陔p向循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法在語(yǔ)音識(shí)別的精確度角度來(lái)看,在一定程度上提高了語(yǔ)音識(shí)別的準(zhǔn)確率。但與此同時(shí)在實(shí)驗(yàn)中也發(fā)現(xiàn)了這個(gè)算法的一些缺陷,就是它在訓(xùn)練時(shí)間上顯著要比傳統(tǒng)算法與單向循環(huán)神經(jīng)網(wǎng)絡(luò)要長(zhǎng),這可能會(huì)造成在開(kāi)發(fā)中需要更多的成本。但無(wú)論在測(cè)試還是在實(shí)際應(yīng)用時(shí)都具有很好的表現(xiàn),具有很大的應(yīng)用價(jià)值。

        猜你喜歡
        深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別
        基于大數(shù)據(jù)網(wǎng)絡(luò)的運(yùn)動(dòng)損傷評(píng)估模型研究
        試論基于深度神經(jīng)網(wǎng)絡(luò)的汽車(chē)車(chē)型識(shí)別問(wèn)題
        深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀
        通話中的語(yǔ)音識(shí)別技術(shù)
        基于深度神經(jīng)網(wǎng)絡(luò)的身份識(shí)別研究
        面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
        人工智能與語(yǔ)音識(shí)別技術(shù)
        基于深度學(xué)習(xí)的目標(biāo)反饋?zhàn)R別系統(tǒng)
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書(shū)功能分析與實(shí)現(xiàn)
        基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
        国产精品无码dvd在线观看| 国产肥熟女免费一区二区| 亚洲精品视频1区2区| 狠狠色噜噜狠狠狠狠97首创麻豆| 香蕉免费一区二区三区| 精品深夜av无码一区二区老年| 亚洲免费观看在线视频| 国产丝袜在线精品丝袜不卡| 欧美性性性性性色大片免费的| 亚洲男人天堂2017| 欧美日韩国产高清| 一区两区三区视频在线观看| 青青草免费手机直播视频| 人妖av手机在线观看| 特黄大片又粗又大又暴| 日本熟妇色xxxxx欧美老妇| 亚洲欧美另类自拍| 欧美精品高清在线xxxx| 精品国产3p一区二区三区| 亚洲av综合色区一区二区| 高潮毛片无遮挡高清视频播放| 爽爽精品dvd蜜桃成熟时电影院| 初尝黑人巨砲波多野结衣| 色狠狠一区二区三区香蕉蜜桃 | 国产精品久久久久久无码| 亚洲综合国产精品一区二区99 | 国产一区日韩二区欧美三区| 亚洲国产一区二区三区最新| 日本在线播放不卡免费一区二区 | 亚洲乱色视频在线观看| 国产自拍三级黄片视频| 色婷婷av一区二区三区久久 | 最新国产成人在线网站| 在线观看人成网站深夜免费| 亚洲国产av一区二区三区天堂 | 午夜视频在线在免费| 人妻丰满熟妇AV无码区HD| 久久久www成人免费无遮挡大片| 极品夫妻一区二区三区| 中文亚洲av片不卡在线观看| 亚洲欧美激情精品一区二区|