趙麗娜
(西安培華學(xué)院,陜西 西安 710125)
英語(yǔ)作為全球通用語(yǔ)言,一直也是我國(guó)各高校的教學(xué)重點(diǎn)。雖經(jīng)過(guò)多年的英語(yǔ)學(xué)習(xí),高校學(xué)生仍然存在英語(yǔ)交際能力較弱的問(wèn)題。因此,快速發(fā)展完善的計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù),為英語(yǔ)口語(yǔ)輔助學(xué)習(xí)提供技術(shù)支撐,通過(guò)多媒體及網(wǎng)絡(luò)技術(shù)設(shè)計(jì)并完善英語(yǔ)口語(yǔ)發(fā)音學(xué)習(xí)系統(tǒng)已成為研究的重點(diǎn)之一。隨著嵌入式技術(shù)及自動(dòng)測(cè)試技術(shù)的發(fā)展,為英語(yǔ)發(fā)音識(shí)別系統(tǒng)的優(yōu)化設(shè)計(jì)提供了有效地實(shí)現(xiàn)路徑,進(jìn)而有利于提高英語(yǔ)聽(tīng)力教學(xué)的自動(dòng)化及智能化水平。本次研究中主要基于嵌入式信息技術(shù),對(duì)實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì),通過(guò)嵌入式系統(tǒng)硬件平臺(tái)完成了發(fā)音識(shí)別算法程序及發(fā)音誤差自動(dòng)檢測(cè)方法的設(shè)計(jì)[1]。
由于嵌入式實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)的使用者較多,需提升系統(tǒng)運(yùn)行時(shí)的抗噪聲能力,確保系統(tǒng)具備良好的穩(wěn)定性,滿(mǎn)足對(duì)不同用戶(hù)的英語(yǔ)發(fā)音識(shí)別需求。目前市場(chǎng)現(xiàn)有的英語(yǔ)發(fā)音識(shí)別系統(tǒng)普遍存在語(yǔ)言識(shí)別準(zhǔn)確性不足的問(wèn)題,發(fā)音中不同的口音及方言會(huì)對(duì)英語(yǔ)發(fā)音識(shí)別過(guò)程產(chǎn)生較大的影響,一定程度上降低了語(yǔ)音識(shí)別系統(tǒng)的精準(zhǔn)度,嵌入式技術(shù)通過(guò)融合當(dāng)前快速發(fā)展的信息化技術(shù)得以在眾多領(lǐng)域(包括工業(yè)、農(nóng)業(yè)、教育信息化等)廣泛應(yīng)用。通過(guò)在芯片中寫(xiě)入設(shè)備控制程序?qū)崿F(xiàn)芯片在相關(guān)設(shè)備中的嵌入,然后使用該嵌入式芯片對(duì)設(shè)備完成相關(guān)控制操作。在語(yǔ)音識(shí)別系統(tǒng)中應(yīng)用嵌入式技術(shù)具備較大的優(yōu)勢(shì),嵌入式芯片具有耗能低、可靠性高、體積小等優(yōu)勢(shì),可顯著提升系統(tǒng)的設(shè)計(jì)性能,在節(jié)約發(fā)音識(shí)別系統(tǒng)設(shè)計(jì)及使用成本的同時(shí),系統(tǒng)對(duì)于特定人發(fā)音的識(shí)別精度可達(dá)到97 %以上,設(shè)計(jì)實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)時(shí)通過(guò)嵌入式芯片的使用實(shí)現(xiàn)了系統(tǒng)體積及性能的優(yōu)化,人際交互模式的簡(jiǎn)化?;谇度胧郊夹g(shù)的實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)可根據(jù)用戶(hù)的講話(huà)內(nèi)容,對(duì)接收到的發(fā)音信號(hào)進(jìn)行實(shí)時(shí)傳輸處理,同時(shí)將相應(yīng)的發(fā)音識(shí)別算法嵌入識(shí)別系統(tǒng)中,實(shí)現(xiàn)對(duì)英語(yǔ)發(fā)音的快速實(shí)時(shí)識(shí)別功能,進(jìn)而使英語(yǔ)發(fā)音的識(shí)別速度及準(zhǔn)確率得到顯著提升。通過(guò)該識(shí)別系統(tǒng)能夠有針對(duì)性地滿(mǎn)足不同用戶(hù)的使用需求[2]。
目前市場(chǎng)上已經(jīng)有較多的英語(yǔ)學(xué)習(xí)軟件應(yīng)用到實(shí)際教學(xué)中,但現(xiàn)有軟件大多只是簡(jiǎn)單的集成各類(lèi)資源,對(duì)于英語(yǔ)發(fā)音識(shí)別方面普遍存在識(shí)別效率及準(zhǔn)確率較低,且反饋不及時(shí)等方面的問(wèn)題。本系統(tǒng)主要由(嵌入式)中央處理器、只讀及可讀寫(xiě)存儲(chǔ)器、外圍控制電路及外圍設(shè)備等構(gòu)成,為盡量縮小該嵌入式實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)的體積,系統(tǒng)在對(duì)發(fā)音信號(hào)進(jìn)行轉(zhuǎn)換時(shí)采用了相應(yīng)的語(yǔ)音解碼芯片,再通過(guò)使用S3C240對(duì)語(yǔ)音信號(hào)進(jìn)行計(jì)算和處理完成其到控制指令的轉(zhuǎn)換,并采用二極管對(duì)輸出內(nèi)容進(jìn)行檢測(cè),從而提升系統(tǒng)發(fā)音識(shí)別正確率。
該系統(tǒng)的主要功能模塊包括兩方面。(1)發(fā)音訓(xùn)練功能模塊。該英語(yǔ)發(fā)音識(shí)別系統(tǒng)接收到用戶(hù)的英語(yǔ)發(fā)音后,通過(guò)使用嵌入式算法完成對(duì)用戶(hù)發(fā)音機(jī)械能的多次訓(xùn)練,并在此基礎(chǔ)上對(duì)發(fā)音進(jìn)行預(yù)處理,完成對(duì)該英語(yǔ)發(fā)音特征參數(shù)的有效提取,從而使系統(tǒng)英語(yǔ)發(fā)音的識(shí)別精度得到有效提高。(2)發(fā)音識(shí)別功能模塊。針對(duì)輸入的發(fā)音,系統(tǒng)將提取出的發(fā)音特征矢量參數(shù)同參考模型庫(kù)進(jìn)行相似性度比較,從中挑選出相似性高的特征矢量作為系統(tǒng)識(shí)別結(jié)果的輸出[3]。
針對(duì)該嵌入式實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng),通過(guò)基于隱馬爾科夫模型(HMM)的使用完成對(duì)嵌入式發(fā)音識(shí)別算法的構(gòu)建,對(duì)英語(yǔ)發(fā)音信號(hào)統(tǒng)計(jì)特性的變化情況使用馬爾科夫鏈進(jìn)行模擬,具體使用三元的參數(shù)函數(shù)進(jìn)行描述,函數(shù)關(guān)系表達(dá)式如下:
A表示隱含狀態(tài)轉(zhuǎn)移概率矩陣,B表示觀(guān)測(cè)狀態(tài)轉(zhuǎn)移概率矩陣,對(duì)隱馬爾科夫模型中的參數(shù)進(jìn)行簡(jiǎn)化,模型中的Markov鏈由N表示,由S表示其狀態(tài)集合,由π表示初始狀態(tài)的概率分布矢量,關(guān)系式如下:
初始狀態(tài)分布滿(mǎn)足條件如下:
由π,A對(duì)隱馬爾科夫模型中的Markov鏈進(jìn)行描述,并產(chǎn)生對(duì)應(yīng)的狀態(tài)序列。通過(guò)將HMM算法芯片嵌入該實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)中實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的準(zhǔn)確高效的處理(包括預(yù)加重、分幀、FFT變換等),在此基礎(chǔ)上完成英語(yǔ)發(fā)音信號(hào)的實(shí)時(shí)提取操作,從而完成英語(yǔ)發(fā)音的實(shí)時(shí)識(shí)別 。
該嵌入式系統(tǒng)的硬件設(shè)計(jì)主要針對(duì)主控核心及發(fā)音識(shí)別兩個(gè)關(guān)鍵功能,對(duì)于實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)的主控核心功能的實(shí)現(xiàn)主要采用嵌入式微處理器芯片,主控制器則選用STM32FC8T6芯片(ST公司),包含高速存儲(chǔ)器的STM32芯片中的增強(qiáng)I/O端口可有效滿(mǎn)足系統(tǒng)的發(fā)音識(shí)別需求[4]。對(duì)于發(fā)音識(shí)別功能則通過(guò)使用LD3320芯片(ICRoute公司)實(shí)現(xiàn),該芯片包含豐富的發(fā)音識(shí)別算法(經(jīng)過(guò)集成優(yōu)化處理),可使發(fā)音實(shí)時(shí)識(shí)別的準(zhǔn)確率得到有效提高。
在設(shè)計(jì)該實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)的軟件功能時(shí),主要通過(guò)C語(yǔ)言的使用完成系統(tǒng)功能代碼的編寫(xiě),case1~case6分別表示沒(méi)有檢測(cè)出聲音、需要重新訓(xùn)練一遍、環(huán)境太吵、數(shù)據(jù)庫(kù)滿(mǎn)、檢測(cè)出聲音不同、序號(hào)錯(cuò)誤等6種情況,RSP_NAMEDIFF和RSP_CMDDIFF分別表示兩次輸入名稱(chēng)不同、兩次輸入命令不同。部分主要代碼如下 :
發(fā)音輸入:
3.3.1 特征分解和關(guān)聯(lián)維特征配準(zhǔn)
系統(tǒng)發(fā)音誤差自動(dòng)檢測(cè)過(guò)程是通過(guò)時(shí)頻特征分解方法的使用,完成對(duì)英語(yǔ)發(fā)音信號(hào)的降噪處理。本文在此基礎(chǔ)上通過(guò)綜合運(yùn)用時(shí)頻分析和提取關(guān)聯(lián)信息熵特征的方式,進(jìn)一步優(yōu)化設(shè)計(jì)發(fā)音誤差自動(dòng)檢測(cè)方法,提高發(fā)音識(shí)別的誤差檢測(cè)能力。輸入狀態(tài)參數(shù)N(j)用于表示輸入信號(hào)(第j層濾波器組)的長(zhǎng)度表示小波系數(shù)(指系統(tǒng)聲調(diào)的發(fā)音長(zhǎng)度內(nèi)),w(j)表示小波子帶,為w(j)的長(zhǎng)度[5],對(duì)輸出的經(jīng)過(guò)降噪處理的英語(yǔ)發(fā)音信號(hào)進(jìn)行特征分解和配準(zhǔn),分解濾波器組由AFB表示,語(yǔ)音識(shí)別系統(tǒng)的軟閾值函數(shù)由c(j)表示、硬閾值函數(shù)由w(j)表示,信號(hào)的小波變換表達(dá)式如下 :
其中,1≤j≤J。
在特征分解和關(guān)聯(lián)維特征配準(zhǔn)過(guò)程中的發(fā)音信號(hào)重組通過(guò)結(jié)合使用小波多層重構(gòu)方法完成,系統(tǒng)的重構(gòu)濾波器組由SFB表示,獲取的信號(hào)濾波的逆變換表達(dá)式如下:
其中,1≤j≤J。
接下來(lái)對(duì)發(fā)音信號(hào)進(jìn)行濾波檢測(cè)(屬于一個(gè)迭代過(guò)程),具體采用自相關(guān)匹配濾波方法實(shí)現(xiàn),對(duì)聲調(diào)特征序列進(jìn)行離散傅里葉變換(DWT)處理,k表示發(fā)音信號(hào)的長(zhǎng)度,具體表達(dá)式定義如下:
然后提取發(fā)音發(fā)音信號(hào)的關(guān)聯(lián)特征量,再對(duì)發(fā)音信號(hào)通過(guò)級(jí)聯(lián)濾波方法的使用完成盲源分離處理過(guò)程,完成不同分辨率(由j表示)語(yǔ)音信號(hào)的重構(gòu),具體表達(dá)式如下:
再將信號(hào)經(jīng)傅里葉變換后完成從時(shí)域到頻域的過(guò)渡,發(fā)音信號(hào)的長(zhǎng)度由N表示,幀的頻率由J表示,在自適應(yīng)增強(qiáng)含噪的發(fā)音信號(hào)的基礎(chǔ)上,獲取各子信號(hào)輸出的小波系數(shù)表達(dá)式如下:
提取發(fā)音語(yǔ)音信號(hào)的關(guān)聯(lián)特征量,通過(guò)使用新的閾值函數(shù)判別發(fā)音準(zhǔn)確性,表達(dá)式如下:
3.3.2 誤差檢測(cè)輸出
重組發(fā)音信號(hào)結(jié)合小波多層重構(gòu)方法完成后,對(duì)信號(hào)的關(guān)聯(lián)信息熵特征進(jìn)行提取,采用時(shí)頻分析方法將發(fā)音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,語(yǔ)音信號(hào)的瞬時(shí)頻率的估計(jì)表達(dá)式如下:
時(shí)頻分析過(guò)程綜合運(yùn)用WVD時(shí)頻分布和Hough變換完成,對(duì)發(fā)音信號(hào)的特征進(jìn)行提取和分類(lèi)識(shí)別,采用合同矩陣產(chǎn)生發(fā)音特征目標(biāo)函數(shù),表達(dá)式如下 :
計(jì)算信號(hào)的自適應(yīng)功率譜密度特征,給定發(fā)音狀態(tài)特征向量集合表示如下:
發(fā)音的信號(hào)譜平均頻率通過(guò)使用動(dòng)態(tài)反饋方法獲取,表達(dá)式如下:
針對(duì)英語(yǔ)發(fā)音信號(hào)通過(guò)時(shí)頻分析Viterbi算法的使用完成檢測(cè)過(guò)程,對(duì)發(fā)音信號(hào)進(jìn)行時(shí)頻分析及其特征量提取,得到發(fā)音誤差自動(dòng)檢測(cè)硬、軟閾值函數(shù),表達(dá)式分別如下 :
本文通過(guò)實(shí)驗(yàn)對(duì)系統(tǒng)的發(fā)音識(shí)別率進(jìn)行測(cè)試,分別在安靜以及嘈雜環(huán)境下使用5條英語(yǔ)發(fā)音指令對(duì)系統(tǒng)進(jìn)行對(duì)比測(cè)試,每條發(fā)音指令分別測(cè)試10次,在不同環(huán)境下針對(duì)特定人進(jìn)行試驗(yàn),記錄系統(tǒng)成功識(shí)別的次數(shù)[6]。采樣頻率設(shè)為12 500 Hz,發(fā)音識(shí)別過(guò)程中的信噪比范圍在-5 dB~20 dB(可通過(guò)遞增產(chǎn)生不同的信噪比),基于MVDR波束對(duì)系統(tǒng)的識(shí)別率進(jìn)行采樣分析。本文的嵌入式實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng)的正確識(shí)別率(89 %)明顯高于傳統(tǒng)聲音識(shí)別系統(tǒng)(60 %),使用系統(tǒng)中語(yǔ)音識(shí)別算法,能夠?qū)崿F(xiàn)對(duì)英語(yǔ)發(fā)音實(shí)時(shí)高效的識(shí)別,具有較高的英語(yǔ)發(fā)音識(shí)別速度及識(shí)別準(zhǔn)確率。對(duì)所設(shè)計(jì)的系統(tǒng)發(fā)音誤差自動(dòng)檢測(cè)性能進(jìn)行測(cè)試,采樣Matlab進(jìn)行仿真實(shí)驗(yàn),仿真時(shí)長(zhǎng)為1 000,特征采樣的歸一化初始及終止頻率分別為0.3、0.05,檢測(cè)的信號(hào)長(zhǎng)度為1 200,迭代次數(shù)為100,噪聲干擾信噪比分別為-5 dB和-8 dB,之后得到采集系統(tǒng)的發(fā)音信號(hào)。將該發(fā)音信號(hào)作為測(cè)試樣本,采用時(shí)頻特征分解方法完成降噪處理、特征分解和關(guān)聯(lián)維特征配準(zhǔn),對(duì)發(fā)音信號(hào)的分辨能力、檢測(cè)的準(zhǔn)確率、系統(tǒng)發(fā)音誤差自動(dòng)檢測(cè)功能的有效性進(jìn)行驗(yàn)證后發(fā)現(xiàn),該系統(tǒng)以英語(yǔ)發(fā)音為依據(jù)做出相關(guān)控制命令,能夠?qū)τ⒄Z(yǔ)發(fā)音進(jìn)行快速識(shí)別,顯著提升了檢測(cè)的準(zhǔn)確度,具有較高的應(yīng)用價(jià)值 。
本文通過(guò)多媒體控制及發(fā)音控制技術(shù)的綜合運(yùn)用,完成對(duì)發(fā)音識(shí)別系統(tǒng)的設(shè)計(jì),通過(guò)運(yùn)用提取關(guān)聯(lián)信息熵特征和時(shí)頻分析實(shí)現(xiàn)系統(tǒng)發(fā)音誤差自動(dòng)檢測(cè),設(shè)計(jì)并實(shí)現(xiàn)了嵌入式實(shí)時(shí)英語(yǔ)發(fā)音識(shí)別系統(tǒng),針對(duì)復(fù)雜的英語(yǔ)發(fā)音信號(hào)可結(jié)合專(zhuān)家系統(tǒng)分析方法完成特征的識(shí)別和分析,在此基礎(chǔ)上完成英語(yǔ)發(fā)音的誤差糾正,對(duì)英語(yǔ)發(fā)音信號(hào)采用時(shí)頻特征分解方法進(jìn)行降噪處理,再對(duì)處理后的信號(hào)進(jìn)行特征分解和配準(zhǔn),提取發(fā)音信號(hào)的關(guān)聯(lián)信息熵特征,并據(jù)此進(jìn)行自動(dòng)匹配完成誤差的自動(dòng)識(shí)別,從而使英語(yǔ)發(fā)音教學(xué)質(zhì)量及效率得到顯著提升[7]。