德州職業(yè)技術(shù)學(xué)院 張 丹
在大數(shù)據(jù)時(shí)代下,傳統(tǒng)的機(jī)器學(xué)習(xí)算法下所展開(kāi)的語(yǔ)音數(shù)據(jù)處理模式下的計(jì)算活動(dòng)已經(jīng)不能夠滿足人們對(duì)于語(yǔ)音數(shù)據(jù)的需求。因此展開(kāi)對(duì)語(yǔ)音識(shí)別模型的研究探索,成為當(dāng)前計(jì)算機(jī)平臺(tái)的研究熱點(diǎn)之一。本文主要研究如何將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別中,探索基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)的網(wǎng)絡(luò)整體結(jié)構(gòu)以及結(jié)構(gòu)運(yùn)行流程,最終呈現(xiàn)出一種更加優(yōu)良的語(yǔ)音識(shí)別模型。
語(yǔ)音識(shí)別顧名思義就是利用語(yǔ)音機(jī)器來(lái)展開(kāi)對(duì)自然語(yǔ)音的處理。根據(jù)現(xiàn)有的計(jì)算機(jī)平臺(tái)語(yǔ)音識(shí)別機(jī)器的運(yùn)行流程可知,語(yǔ)音識(shí)別需要經(jīng)過(guò)完成以下的基本流程,如圖1所示。
圖1 語(yǔ)音識(shí)別流程
但是自然語(yǔ)音數(shù)據(jù)的收集過(guò)程中,存在語(yǔ)音信號(hào)可變性的特點(diǎn)。如,聲學(xué)變量中相同音素在不同文本中的不同發(fā)音,導(dǎo)致語(yǔ)音機(jī)器所接收到的語(yǔ)音音素變量差距較大。也有噪聲現(xiàn)象影響語(yǔ)音信號(hào)的聲學(xué)模型的,改變語(yǔ)音信源信息。因此做好語(yǔ)音識(shí)別必須能夠做好語(yǔ)音信號(hào)的特征精準(zhǔn)提取,完成語(yǔ)音信號(hào)數(shù)字化采樣和數(shù)字化的聲學(xué)信號(hào)分析。
上述提到語(yǔ)音識(shí)別的基本流程特點(diǎn),同時(shí)也強(qiáng)調(diào)了在整個(gè)流程中會(huì)對(duì)語(yǔ)音識(shí)別效率和結(jié)果帶來(lái)影響的若干因素,對(duì)于這些影響因素的分析,歸根究底是因?yàn)檎Z(yǔ)音信號(hào)的預(yù)處理以及其特征提取的過(guò)程沒(méi)有做好。
語(yǔ)音信號(hào)的預(yù)處理。語(yǔ)音信號(hào)在產(chǎn)生的時(shí)候,計(jì)算機(jī)平臺(tái)中的語(yǔ)音機(jī)器要能夠?qū)@些信號(hào)進(jìn)行采樣和量化,將語(yǔ)音信號(hào)以數(shù)字形式預(yù)加重處理,而后根據(jù)語(yǔ)音信號(hào)的數(shù)字形式中的高中低頻幅度相當(dāng)?shù)奶攸c(diǎn),進(jìn)行分幀加窗,完成語(yǔ)音幀序列特征提取,形成特征向量序列,便于語(yǔ)音機(jī)器模型的識(shí)別和測(cè)試。以語(yǔ)音信號(hào)預(yù)加重處理為例,一般情況下是采用硬件或是軟件兩種方式實(shí)現(xiàn)預(yù)加重處理,通過(guò)選擇一個(gè)特性的高通濾波器進(jìn)行預(yù)加重處理,完成濾波器傳遞函數(shù)“H(z)=de1-aZ-1”其中,a為0.9375,為該語(yǔ)音識(shí)別模型的預(yù)加重系數(shù)。
語(yǔ)音信號(hào)的特征提取。語(yǔ)音信號(hào)中擁有多種特征參數(shù),正是這些特征參數(shù)讓語(yǔ)音信號(hào)能夠被語(yǔ)音機(jī)器所識(shí)別和處理。常用的特征參數(shù)又有線性預(yù)測(cè)倒譜系數(shù)和美爾頻率倒譜系數(shù)。本文以線性預(yù)測(cè)系數(shù)為例展開(kāi)對(duì)語(yǔ)音信號(hào)的特征提取分析。一般的語(yǔ)音信號(hào)是通過(guò)激勵(lì)不同形狀的聲道模型而產(chǎn)生的,語(yǔ)音識(shí)別模型可以對(duì)聲道的形狀或模型估測(cè)出參數(shù)得到語(yǔ)音信號(hào)的特征,完成語(yǔ)音識(shí)別。線性預(yù)測(cè)系數(shù)模式就是通過(guò)一過(guò)去若干個(gè)運(yùn)用語(yǔ)音采樣的線性組合來(lái)逼近一個(gè)語(yǔ)音信號(hào),并且利用實(shí)際語(yǔ)音采樣和線性預(yù)測(cè)采樣之間的誤差值平方和的最小值來(lái)表達(dá)這一參數(shù)值lpc。另外還有線性預(yù)測(cè)倒譜系數(shù),該系數(shù)是通過(guò)線性預(yù)測(cè)系數(shù)的倒譜域所表示出來(lái)的,整體運(yùn)算過(guò)程較為繁瑣,具體如圖2所示。
圖2 線性預(yù)測(cè)倒譜系數(shù)流程圖
人工神經(jīng)網(wǎng)絡(luò)能夠基于大規(guī)模歷史數(shù)據(jù)訓(xùn)練、聚類,完成對(duì)海量的數(shù)據(jù)的處理、分布存儲(chǔ),更能夠完成對(duì)各種非確定性和非線性對(duì)象的綜合處理。語(yǔ)音識(shí)別正是借助人工神經(jīng)網(wǎng)絡(luò),從人腦的組織架構(gòu)和活動(dòng)基理入手,借助數(shù)學(xué)和物理方法進(jìn)行抽象建立起來(lái)的對(duì)語(yǔ)音信息的處理的類似生物神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化模型。傳統(tǒng)語(yǔ)音識(shí)別所采用的神經(jīng)網(wǎng)絡(luò)模型為反向傳播網(wǎng)絡(luò)結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)模型主要是根據(jù)系統(tǒng)所提供的原始數(shù)據(jù),通過(guò)訓(xùn)練和學(xué)習(xí)的方式,表達(dá)語(yǔ)音輸入和輸出之間的內(nèi)在聯(lián)系,進(jìn)而解得答案。反向傳播網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別中的應(yīng)用需要注意利用函數(shù)逼近與分類的區(qū)別,完成對(duì)子模型結(jié)構(gòu)的選擇,確定語(yǔ)音輸入層和輸出層節(jié)點(diǎn)數(shù)、網(wǎng)絡(luò)隱含層數(shù)目以及每層隱含層神經(jīng)元數(shù)目;展開(kāi)對(duì)語(yǔ)音樣本的預(yù)處理,進(jìn)行激勵(lì)函數(shù)形式的選擇等。在反響傳播網(wǎng)絡(luò)模型下的語(yǔ)音識(shí)別領(lǐng)域能夠展開(kāi)并行分布處理工作,具有較高的容錯(cuò)性、自學(xué)習(xí)和自適應(yīng)性。但是同時(shí),反響傳播網(wǎng)絡(luò)模型在也語(yǔ)音識(shí)別中所需要消耗的學(xué)習(xí)時(shí)間較長(zhǎng),遇到部分問(wèn)題時(shí),甚至需要運(yùn)行更久,直接影響語(yǔ)音識(shí)別的及時(shí)性和精確性。因此導(dǎo)入一個(gè)全新的神經(jīng)網(wǎng)絡(luò)模型具有現(xiàn)實(shí)意義。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是一個(gè)新興的神經(jīng)網(wǎng)絡(luò)模型,其發(fā)展速度較快,能夠完成對(duì)各種特殊的孤立詞的人語(yǔ)音識(shí)別。當(dāng)前在應(yīng)用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語(yǔ)音識(shí)別時(shí),需要根據(jù)人語(yǔ)音的特殊性,進(jìn)行語(yǔ)音樣本庫(kù)建立,完成對(duì)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的性能改進(jìn),最后構(gòu)建起限制玻爾茲曼機(jī)模型,應(yīng)用相應(yīng)的分類器,完成語(yǔ)音識(shí)別整個(gè)流程。
語(yǔ)音樣本庫(kù)的建立。語(yǔ)音樣本庫(kù)的建立需要滿足語(yǔ)音樣本的完整清晰性,可以人耳清晰辨別人工所說(shuō)的數(shù)字,完成常規(guī)語(yǔ)音數(shù)據(jù)采集。之后完成語(yǔ)音信號(hào)的預(yù)加重處理,預(yù)加重濾除相應(yīng)的低頻干擾,增加語(yǔ)音的高頻分辨率,得到語(yǔ)音輸入時(shí)域波形圖。之后對(duì)語(yǔ)音端點(diǎn)進(jìn)行檢測(cè),包括語(yǔ)音段、靜音段和背景噪音的處理。對(duì)語(yǔ)音端點(diǎn)的檢測(cè)和特征處理彩英時(shí)域端點(diǎn)偵測(cè)方式,將語(yǔ)音的幀長(zhǎng)、幀移、短時(shí)平均能量的低門限、短時(shí)平均能量的高門限等參數(shù)進(jìn)行設(shè)置,最終得到語(yǔ)音端點(diǎn)檢測(cè)仿真波形圖。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型處理。在搭建起語(yǔ)音樣本庫(kù)之后,由于所識(shí)別的語(yǔ)音是漢語(yǔ),因此在需要細(xì)致分析漢語(yǔ)語(yǔ)音的特殊性,進(jìn)行整個(gè)神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)。當(dāng)前可以采用輸入矢量歸一化探索,將輸入數(shù)據(jù)同系統(tǒng)權(quán)系數(shù)修正值呈現(xiàn)出正相關(guān)關(guān)系,如此有效避免漢語(yǔ)語(yǔ)音特征進(jìn)入到激勵(lì)函數(shù)飽和區(qū),影響識(shí)別的準(zhǔn)確性。也可以采用網(wǎng)絡(luò)鏈接矩陣初始值的浮點(diǎn)數(shù)的隨機(jī)選取,讓網(wǎng)絡(luò)更加平穩(wěn)的收斂,對(duì)各種語(yǔ)音特征輸入輸出處理更加穩(wěn)定。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別中的實(shí)驗(yàn)應(yīng)用。完成前期準(zhǔn)備之后,開(kāi)始發(fā)揮深度神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別中的實(shí)驗(yàn)應(yīng)用。首先,實(shí)驗(yàn)主要是采用美爾倒譜系數(shù)與美爾倒譜系數(shù)一階差分的混合參數(shù)作為語(yǔ)音信號(hào)的提取特征,將其以48×2輸入矩陣橫向展開(kāi),轉(zhuǎn)化為96維的向量,讓輸入的數(shù)據(jù)大小都?xì)w集為[0,1]的閉合區(qū)間內(nèi)。其次,構(gòu)建限制玻爾茲曼機(jī)模型,展開(kāi)參數(shù)的重新設(shè)置,可以采用小批量處理方式,將數(shù)據(jù)分別設(shè)置為包含1到10的是個(gè)樣本,由此降低抽樣誤差。進(jìn)行學(xué)習(xí)率設(shè)置,不能夠設(shè)置過(guò)大,一般是控制在權(quán)值的0.003倍左右,本實(shí)驗(yàn)中設(shè)置為0.001。另外還有參數(shù)初始值、隱含層單元個(gè)數(shù)設(shè)置等等。最后,快速學(xué)習(xí)算法設(shè)計(jì)。
經(jīng)過(guò)上述的仿真實(shí)驗(yàn)分析,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別中其學(xué)習(xí)速率得到較大程度的提升,在線學(xué)習(xí)時(shí)的迭代次數(shù)為1000次,具有更高的學(xué)習(xí)效果。
結(jié)束語(yǔ):綜上所述,在新時(shí)代下語(yǔ)音識(shí)別技術(shù)在各行業(yè)中都得到廣泛應(yīng)用,但是語(yǔ)音信號(hào)的可變性為語(yǔ)音有效識(shí)別帶來(lái)技術(shù)難題。如何有效地提高語(yǔ)音信號(hào)源信息的處理效率,提高語(yǔ)音信號(hào)的傳輸分析成為當(dāng)務(wù)之急。按照語(yǔ)音識(shí)別的基本流程可知,語(yǔ)音信號(hào)的預(yù)處理和語(yǔ)音信號(hào)的特征提取直接影響著最終的識(shí)別效率和質(zhì)量。當(dāng)前借助深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型完成語(yǔ)音識(shí)別工作。首先是要進(jìn)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的架構(gòu),之后借助這一模型完成語(yǔ)音識(shí)別仿真實(shí)驗(yàn),由此提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的具體應(yīng)用成效。