亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進精簡的語音識別模型

        2022-03-07 10:11:22劉鑫羅幼喜
        電子測試 2022年24期
        關鍵詞:結構實驗模型

        劉鑫,羅幼喜

        (湖北工業(yè)大學理學院,湖北武漢,430068)

        0 引言

        在深度學習應用到語音識別領域之前,聲學模型也有屬于自己的一套體系,像高斯混合模型和隱馬爾可夫模型在語音識別的領域上都取得了不錯的效果,但是傳統(tǒng)的語音識別模型存在上下文割裂的情況。

        因此,研究人員注意到具有自注意力機制的深度神經網絡模型Transformer,在機器翻譯、計算機視覺等領域中展現(xiàn)出強勁識別性能。于是,Dong等人首次將Transformer模型引入語音識別領域,提出Speech-Transformer模型,使得Transformer能夠完成語音識別任務;然后Bie等人又將Speech-Transformer模型規(guī)模進行縮減,使其應用到低存儲設備,但是在傳統(tǒng)的端對端的模型當中Transformer模型存在參數(shù)量大,識別準確率低,訓練時間長等種種問題,無法很好地移植到硬件設備上,因此研究模型參數(shù)的影響因素和縮減模型的參數(shù)量以及加快模型的訓練速度成了一個亟待解決的問題。

        1 相關工作

        本文在Speech-Transformer語音識別系統(tǒng)的基礎上進行一定的探索研究,對模型中的參數(shù)進行一定的探索和量化工作,并且對模型結構進行一定的修改以求達到一個更優(yōu)的模型。通過研究Transformer不同參數(shù)對其模型性能的影響,此外本文在對模型進行參數(shù)調整的過程中還對Transformer模型結構中殘差連接和歸一化層(add&norm)這一結構結合殘差神經網絡相應地改進施進行修改,在保證詞錯率下降的同時,加快模型的收斂速度和訓練速度,修改結構之后的模型在詞錯率上相比原有模型詞錯率更低,并且收斂速度也比未修改結構的模型收斂速度更快。在最后訓練出來的所有模型當中,挑選出參數(shù)量小準確率高解碼速度快的模型進行識別任務。

        2 Transformer的語音識別系統(tǒng)

        2.1 卷積神經網絡壓縮語音數(shù)據(jù)的長度和信息密度

        在語音識別中,考慮到語音數(shù)據(jù)在一段時間內會有重復的片段在里面,句子的特征向量會比較冗長,這里采用卷積層在進行特征提取的同時對語音序列的長度進行裁剪使輸入語音特征序列的長度得到縮減和信息密度得到增強。

        2.2 對Transformer模型訓練進行加速

        2.2.1 殘差神經網絡

        在Transformer的結構中本身自帶了殘差連接的結構,殘差連接的結構如圖1所示,殘差連接的結構主要是為了解決深度學習模型在模型網絡結構過深的問題中,在面對梯度消失和梯度爆炸的問題上,殘差連接的結構能夠很好地保存數(shù)據(jù)特征的梯度。

        圖1 殘差連接結構圖

        2.2.2 ReZero:加速深度模型收斂

        在此之前來自加州大學圣迭戈分校(UCSD)的研究者提出一種神經網絡結構改進方法「ReZero」,他對殘差連接的修改如公式(1)所示:

        在模型訓練開始之前將α的默認值設定為零。改進后的網絡結構如圖2所示。

        圖2 更改的殘差連接結構示意圖

        2.2.3 對殘差連接部分的優(yōu)化改進

        基于上述對殘差連接結構進行的一系列優(yōu)化,本文選取將殘差連接的優(yōu)化應用在Transformer的結構當中,通過修改對比之前的改進措施進行一系列的綜合實驗,以求取得一個優(yōu)異的語音識別系統(tǒng)模型。修改的部分如圖3和圖4所示。

        圖3 原始模型當中的殘差連接示意圖

        圖4 修改模型當中的殘差連接示意圖

        2.2.4 殘差連接中的系數(shù)修改(加入約束因子)

        注意力機制的本質就是在特征的前面加上一個權重,在模型的解碼過程中根據(jù)各個神經網絡層的結構不斷地去調整各個特征的權重,加入約束因子的目的旨在,隨著神經網絡的深度疊加,因為在Transformer的結構中所有的encoder層和decoder層中都有殘差連接這一結構,訓練出的強特征信息會不斷地放大這一特征的權重系數(shù),與此同時,如果模型當中不存在這樣的強特征,那么我們對殘差連接的系數(shù)進行縮小,將殘差連接的權重設置為小于1的數(shù),特征信息更加強調原始特征里面包含的信息,與此同時擴大原始信息,減弱深層次的特征信息,能夠很好地加強模型的泛化能力。

        2.2.5 最終模型選擇固定的約束(擴大)因子

        通過對各種修改殘差連接的思路對比綜合實驗,得出了固定約束(擴大)的因子會在模型當中取得最佳的效果,固定權重的實驗表現(xiàn)在對比其他策略之下的在詞錯率這一指標上,對比其他的策略平均提升1%,相比于原始的最初模型提升了3%,在模型的收斂速度上的提升是大幅度且顯而易見的。

        3 實驗

        在修改模型的殘差連接系數(shù)的過程中我們嘗試了可調節(jié)系數(shù)和固定配比系數(shù),單可調節(jié)系數(shù)和雙可調節(jié)系數(shù),擴大殘差系數(shù)和擴大X的系數(shù)等等一系列的方法,發(fā)現(xiàn)殘差連接中使用固定配比系數(shù)的效果是最好的,在模型的修改過程中改變了Encoder中殘差鏈接的系數(shù)權重。

        4 實驗結果

        4.1 Transformer超參數(shù)的影響因素

        對于Transformer模型結構會受到哪些因素的影響,本文首先做了以下工作:以初始參數(shù)化的Transformer結構作為基礎結構,采用控制變量法對比不同參數(shù)取值對準確率和解碼速度的影響。其中,不同參數(shù)取值的Transformer結構如表1所示,與此同時表中還記錄了不同模型的參數(shù)量和對應的訓練時長,以及模型對應的詞錯率。

        表1 不同模型參數(shù)優(yōu)化表

        4.1.1 詞向量空間的影響

        這里我們選用的最佳詞向量維度為256,對比模型1和初始模型我們能直觀地看到訓練時長大大縮短,且將詞向量空間減少到原來的1/2,模型的準確率也得到極大提高。詞向量空間的大小對該模型參數(shù)的影響是千萬級別的。

        4.1.2 編碼層和解碼層對參數(shù)的影響

        我們選取了最后的模型encoder=decoder=4這一參數(shù),取得了比較好的效果。對比模型1和模型2的參數(shù)設置我們可以直觀地看到模型的訓練速度的提升效果要明顯的大于其他的指標,這一參數(shù)的設置對訓練速度的提升效果是顯而易見的。

        4.2 模型結構修改實驗結果

        每個模型訓練200輪,每40輪保存一次實驗模型記錄結果見表2:

        表2 實驗模型與相對應的詞錯率表

        4.2.1 動態(tài)殘差加快模型收斂效果顯著

        對比40輪的模型,模型收斂速度相較于原始模型和修改超參數(shù)之后的模型,動態(tài)殘差權重模型在40輪的時候已經收斂,實驗數(shù)據(jù)表明其收斂速度確實得到了提高。

        4.2.2 固定權重配比的模型效果更好

        在固定配比的實驗中,首先選取的是1*F(X)+2*X,即擴大原始X(數(shù)據(jù)特征)在模型訓練中的權重,強調在模型的訓練當中原始X(數(shù)據(jù)特征)在模型訓練當中的重要性要比殘差連接中的殘差部分的更大,此處用加權的權重來衡量數(shù)據(jù)在模型當中的重要性,然而事實卻與我們的預期相反,擴大原始特征x的權重(2x)使得每一輪的模型相比于原來的模型在詞錯率的表現(xiàn)上都有所上升,因此我們在接下來的模型中放棄這一改動選擇在原始模型的基礎上擴大殘差項的系數(shù)(2F(x))來觀測模型最終的表現(xiàn)。

        4.2.3 確定合適的固定配比的比例

        擴大殘差項的系數(shù)(2F(x))模型觀察其在每一個輪次上的表現(xiàn),發(fā)現(xiàn)無論是在收斂速度還是在準確率上,都比修改了超參數(shù)之后的模型表現(xiàn)更加優(yōu)異,繼續(xù)擴大殘差項的系數(shù)(3F(x))其表現(xiàn)差異變化和2F(x)不存在顯著性的差異,繼續(xù)擴大殘差項的系數(shù)(4F(x)),發(fā)現(xiàn)此時的詞錯率開始上升,本實驗中的最優(yōu)模型的殘差連接系數(shù)調節(jié)的最佳配比應該鎖定在1:2到1:3之間,即2*F(X)+1*X或者3*F(X)+1*X,模型的表現(xiàn)最佳。

        在對比所有的模型實驗結果后,在本實驗中固定配比的模型顯然要優(yōu)于調節(jié)系數(shù)的模型,而在固定配比的模型當中,殘差連接系數(shù)調節(jié)的最佳配比應該鎖定在1:2到1:3之間,即2*F(X)+1*X或者3*F(X)+1*X,模型的表現(xiàn)最佳,此時的模型收斂速度較原有模型得到提升的同時,詞錯率降到最低,相對應的最低詞錯率分別為7.92%和7.956%。

        5 結束語

        本文設計了一種基于精簡修改的Transformer模型的語音識別方法,所做的一切修改都是在保證詞錯率下降這一大前提的條件下進行的,針對現(xiàn)有Transformer模型進行修改設計,通過對原有模型的Encoder部分中殘差連接的系數(shù)進行修改,在保證詞錯率下降的同時,使得原始模型的收斂速度得到提升。

        此外對模型的一些超參數(shù)進行合理的調整,使得Transformer的參數(shù)量大大減少,在網絡的訓練階段,由于參數(shù)的減少,提高了訓練的速度;在網絡的解碼驗證階段,運算量的減少,使得模型更加精簡,模型訓練時間和驗證時間的縮短,使得研究人員能夠更加方便地進行調參和模型修改等工作,方便了模型從軟件到硬件上的移植。

        猜你喜歡
        結構實驗模型
        一半模型
        記一次有趣的實驗
        《形而上學》△卷的結構和位置
        哲學評論(2021年2期)2021-08-22 01:53:34
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        論結構
        中華詩詞(2019年7期)2019-11-25 01:43:04
        做個怪怪長實驗
        論《日出》的結構
        3D打印中的模型分割與打包
        NO與NO2相互轉化實驗的改進
        草莓视频中文字幕人妻系列| 97丨九色丨国产人妻熟女| 无码孕妇孕交在线观看| 成人做爰高潮尖叫声免费观看| av狼人婷婷久久亚洲综合| 国产成人亚洲综合二区| 五月色婷婷丁香无码三级| 欧美最猛性xxxxx免费| 未满十八勿入av网免费| 18禁成人免费av大片一区| 国产综合精品久久99之一| 四虎影视永久地址www成人| 亚洲av无码片在线播放| 天堂av一区二区在线| 日本妇人成熟免费2020| 人人澡人人澡人人看添av| 国产艳妇av在线出轨| 国产麻豆极品高清另类| 亚洲av中文无码乱人伦在线视色| 最近中文字幕mv在线资源| 91精品综合久久久久m3u8| 精品少妇一区二区三区入口| 精品人妻av区乱码| 成人天堂资源www在线| 99久久精品国产亚洲av天| 精品国产黄一区二区三区| 日韩人妻一区二区三区蜜桃视频 | 日韩欧美亚洲国产精品字幕久久久 | 蜜桃av噜噜一区二区三区策驰| 中文字幕一区二区人妻性色| 亚洲AⅤ精品一区二区三区| 亚洲av中文字字幕乱码软件| 无码人妻丰满熟妇啪啪网不卡| 大陆啪啪福利视频| 午夜蜜桃视频在线观看| 国产a国产片国产| 国产喷水在线观看| 色se在线中文字幕视频| 人妻丰满熟妇av无码区app| 7777精品伊人久久久大香线蕉| 久久精品视频按摩|