任麗娜
(山西職業(yè)技術(shù)學(xué)院,山西太原,030006)
語音識(shí)別系統(tǒng)可接受人類并理解人的樂音,并根部語音指令執(zhí)行命令,該技術(shù)基于聲學(xué)、語言學(xué)、計(jì)算機(jī)、信息處理、人工智能等多項(xiàng)技術(shù),廣泛適用信息處理、通信、自動(dòng)控制等諸多領(lǐng)域[1]。語音數(shù)字信號(hào)處理的關(guān)鍵是端點(diǎn)檢測(cè),端點(diǎn)從強(qiáng)噪語音信號(hào)識(shí)別出有效語音,噪音信號(hào)越復(fù)雜度識(shí)別難度也會(huì)增加?,F(xiàn)有端點(diǎn)檢測(cè)算法基于采集短時(shí)能量、連續(xù)時(shí)間、基頻信息、過零率的語音特征參數(shù)分析,但在強(qiáng)噪音環(huán)境檢測(cè)性能較差[2]。近年來,越來越多的學(xué)者采用改進(jìn)型的信噪比計(jì)算的方法,極大提高了強(qiáng)噪音環(huán)境中的端點(diǎn)檢測(cè)效果。
語音識(shí)別技術(shù)涉及聲學(xué)、測(cè)量技術(shù)和信息處理等多個(gè)學(xué)科,檢測(cè)端子從眾多聲音中識(shí)別目標(biāo)人的語音特征信息,進(jìn)行識(shí)別出是某人的語音[3]。基于人工智能領(lǐng)域的聲音自動(dòng)識(shí)別系統(tǒng),比其他生物特征技術(shù)更具優(yōu)勢(shì),基于聲音的識(shí)別技術(shù)重復(fù)性好、操作簡(jiǎn)單,也不會(huì)涉及被識(shí)別者隱私,用戶接受程度高,不同場(chǎng)合適用性好,生活中大部分物體都充當(dāng)聲音傳遞的媒介,且不受聲波衍射作用和光照強(qiáng)度的影響。
但是,各地方言是識(shí)別系統(tǒng)準(zhǔn)確性的一大障礙,識(shí)別系統(tǒng)基本采取標(biāo)準(zhǔn)普通話信號(hào)為基礎(chǔ),但方言各地差距較大,尤其是國(guó)內(nèi)8種方言的發(fā)音差距特別大,語音識(shí)別系統(tǒng)準(zhǔn)確度會(huì)大幅下降。隨著移動(dòng)無線互聯(lián)網(wǎng)的推廣,信道種類越來越多,尤其是移動(dòng)電話、手機(jī)、無線發(fā)射器、移動(dòng)網(wǎng)絡(luò)系統(tǒng),語音識(shí)別系統(tǒng)必須適應(yīng)不同信道,不同信道差異較大,跨信道識(shí)別問題是語音信號(hào)識(shí)別的一個(gè)障礙[4]。背景噪音是影響語音識(shí)別系統(tǒng)的一大難題,背景噪音的頻譜很容易和原始語音頻譜重合,會(huì)將原始語音掩蓋在噪音頻譜范圍內(nèi),導(dǎo)致識(shí)別系統(tǒng)不能準(zhǔn)確分離出來原聲音。音識(shí)識(shí)別就是模式識(shí)別,基本結(jié)構(gòu)原理如圖1所示,主要包括信號(hào)預(yù)處理、特征提取、特征匹配等基本功能模塊,后處理模塊作為輸出部分直接面向用戶。
圖1 語音識(shí)別基本框圖
發(fā)音器官主體為肺、喉、鼻和口,發(fā)生器官整體為形狀復(fù)雜的管道,喉部、口和鼻子為聲道,聲道形狀變化產(chǎn)生了發(fā)聲的不同;聲門產(chǎn)生語音的能量起到閥門和振動(dòng)的雙重作用,氣流由肺部壓力變化產(chǎn)生沖擊,聲帶將沖擊轉(zhuǎn)化為不同頻率振動(dòng),由聲道響應(yīng)轉(zhuǎn)換成語音。不同的發(fā)音聲道形狀也相應(yīng)變化,最終將不同的聲音信息傳遞給周圍環(huán)境。聲帶是人類發(fā)音系統(tǒng)的關(guān)鍵器官,聲帶是語音的激勵(lì)源,聲帶振動(dòng)形成基本聲源,聲帶的開啟和閉合形成氣流脈沖,開啟和閉合一次時(shí)間為一個(gè)基音周期,基音周期的倒數(shù)為基音頻率,簡(jiǎn)稱基頻。聲帶發(fā)出基音決定聲音頻率,頻率高則音調(diào)高,頻率低則音調(diào)低,人類基音范圍在70-350Hz,但人類的性別、年齡影響基音頻率,整體趨勢(shì)為年齡高頻率偏低。語音發(fā)出后,聲波以空氣為載體進(jìn)行傳播,聲波是振動(dòng)方向和傳播方向相同的一種縱波。聲波是通過頻率和振幅進(jìn)行描述。聲波頻率決定了音高,聲波振幅決定了響度,頻率越高聲音越高,振幅大則響度大,但是頻率和振幅無直接聯(lián)系。
分折處理前需要將語音信號(hào)從輸入信號(hào)中分離,將語音轉(zhuǎn)化成數(shù)字化信號(hào)經(jīng)過放大器、增益控制、反混疊濾波,采樣,A/D轉(zhuǎn)換多個(gè)過程,預(yù)處理信號(hào)經(jīng)過預(yù)加重、加窗、分幀處理。圖2為語音信號(hào)處理簡(jiǎn)圖。
圖2 語音信號(hào)預(yù)處理簡(jiǎn)圖
模型是對(duì)信號(hào)本質(zhì)的數(shù)學(xué)描述,語音信號(hào)是非平穩(wěn)隨機(jī)信號(hào),無法用確定性函數(shù)方程描述,因此必須分析多種語音識(shí)別數(shù)學(xué)模型,求解結(jié)果逼近實(shí)際值,因此要建立分類模型。目前可用模型有兩種:高斯混合模型和隱馬爾可夫模型。高斯混合模型的階數(shù)必須足夠大,才能全面體現(xiàn)特征空間的分布,采用的協(xié)方差矩陣類型為對(duì)角陣,高維特征空間計(jì)算量小,優(yōu)勢(shì)明顯。模型初值初始條件不同,局部極值差距較大,模型初值必須修正均值。訓(xùn)練數(shù)據(jù)少或背景噪聲過大時(shí),方差幅度變小導(dǎo)致函數(shù)出現(xiàn)奇異性,只能通過方差限定提高計(jì)算精度。
隱馬爾可夫模型有全連結(jié)和從左到右兩種結(jié)構(gòu),從左到右的模型根據(jù)其結(jié)構(gòu)特點(diǎn)有可以進(jìn)一步細(xì)分。全連結(jié)模型允許由一個(gè)狀態(tài)向其它任一狀態(tài)轉(zhuǎn)移,原理如圖3所示。由左到右模型某一狀態(tài)僅可向左/右側(cè)狀態(tài)轉(zhuǎn)移。高斯混合模型和隱馬爾可夫模型可適用不同場(chǎng)合的語音識(shí)別,但隱馬爾可夫模型應(yīng)用范圍更大。
圖3 全連接隱馬爾模型示意圖
利用兩種模型建立不同說話人識(shí)別模型階段,并在實(shí)驗(yàn)條件下測(cè)試不同因素對(duì)辨認(rèn)率和確認(rèn)率的影響,語音長(zhǎng)短對(duì)特征參數(shù)提取影響很大,因此對(duì)多人進(jìn)行錄音后進(jìn)行語音識(shí)別,檢測(cè)結(jié)果如圖4所示,辨認(rèn)率和確認(rèn)率都隨著識(shí)別語音和訓(xùn)練語音時(shí)長(zhǎng)增長(zhǎng)而增加,但信息量達(dá)到一定量時(shí),識(shí)別率緩慢增加。
圖4 不同采集時(shí)間對(duì)識(shí)別率的影響
高斯混合模型采用單高斯密度函數(shù)線性的加權(quán)值調(diào)整實(shí)驗(yàn)表明,適當(dāng)增加權(quán)值可增加結(jié)果的真實(shí)分布程度;改進(jìn)卡爾曼濾波算法可以減少噪聲的影響,提高抗干擾能力,提取說話人的特征準(zhǔn)確度更高。
針對(duì)傳統(tǒng)語音識(shí)別系統(tǒng)在噪音環(huán)境適應(yīng)性差的問題,分析了人類語音特征和信號(hào)處理策略,研究高斯混合數(shù)學(xué)模型和隱馬爾可夫數(shù)學(xué)模型在噪音環(huán)境中語音識(shí)別效果,適當(dāng)增加采集時(shí)長(zhǎng),可有效提高語音的識(shí)別率,改進(jìn)算法也可提高數(shù)學(xué)模型在噪音環(huán)境的準(zhǔn)確度,對(duì)語音識(shí)別系統(tǒng)在信息化中應(yīng)用具有很好的指導(dǎo)意義。