亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種抗噪聲的語音識(shí)別方法研究

2021-07-24 10:00:26任麗娜

電子測(cè)試 2021年13期

任麗娜

(山西職業(yè)技術(shù)學(xué)院，山西太原，030006)

0 引言

語音識(shí)別系統(tǒng)可接受人類并理解人的樂音，并根部語音指令執(zhí)行命令，該技術(shù)基于聲學(xué)、語言學(xué)、計(jì)算機(jī)、信息處理、人工智能等多項(xiàng)技術(shù)，廣泛適用信息處理、通信、自動(dòng)控制等諸多領(lǐng)域[1]。語音數(shù)字信號(hào)處理的關(guān)鍵是端點(diǎn)檢測(cè)，端點(diǎn)從強(qiáng)噪語音信號(hào)識(shí)別出有效語音，噪音信號(hào)越復(fù)雜度識(shí)別難度也會(huì)增加?，F(xiàn)有端點(diǎn)檢測(cè)算法基于采集短時(shí)能量、連續(xù)時(shí)間、基頻信息、過零率的語音特征參數(shù)分析，但在強(qiáng)噪音環(huán)境檢測(cè)性能較差[2]。近年來，越來越多的學(xué)者采用改進(jìn)型的信噪比計(jì)算的方法，極大提高了強(qiáng)噪音環(huán)境中的端點(diǎn)檢測(cè)效果。

1 語音信號(hào)識(shí)別難點(diǎn)和基本原理

語音識(shí)別技術(shù)涉及聲學(xué)、測(cè)量技術(shù)和信息處理等多個(gè)學(xué)科，檢測(cè)端子從眾多聲音中識(shí)別目標(biāo)人的語音特征信息，進(jìn)行識(shí)別出是某人的語音[3]。基于人工智能領(lǐng)域的聲音自動(dòng)識(shí)別系統(tǒng)，比其他生物特征技術(shù)更具優(yōu)勢(shì)，基于聲音的識(shí)別技術(shù)重復(fù)性好、操作簡(jiǎn)單，也不會(huì)涉及被識(shí)別者隱私，用戶接受程度高，不同場(chǎng)合適用性好，生活中大部分物體都充當(dāng)聲音傳遞的媒介，且不受聲波衍射作用和光照強(qiáng)度的影響。

但是，各地方言是識(shí)別系統(tǒng)準(zhǔn)確性的一大障礙，識(shí)別系統(tǒng)基本采取標(biāo)準(zhǔn)普通話信號(hào)為基礎(chǔ)，但方言各地差距較大，尤其是國(guó)內(nèi)8種方言的發(fā)音差距特別大，語音識(shí)別系統(tǒng)準(zhǔn)確度會(huì)大幅下降。隨著移動(dòng)無線互聯(lián)網(wǎng)的推廣，信道種類越來越多，尤其是移動(dòng)電話、手機(jī)、無線發(fā)射器、移動(dòng)網(wǎng)絡(luò)系統(tǒng)，語音識(shí)別系統(tǒng)必須適應(yīng)不同信道，不同信道差異較大，跨信道識(shí)別問題是語音信號(hào)識(shí)別的一個(gè)障礙[4]。背景噪音是影響語音識(shí)別系統(tǒng)的一大難題，背景噪音的頻譜很容易和原始語音頻譜重合，會(huì)將原始語音掩蓋在噪音頻譜范圍內(nèi)，導(dǎo)致識(shí)別系統(tǒng)不能準(zhǔn)確分離出來原聲音。音識(shí)識(shí)別就是模式識(shí)別，基本結(jié)構(gòu)原理如圖1所示，主要包括信號(hào)預(yù)處理、特征提取、特征匹配等基本功能模塊，后處理模塊作為輸出部分直接面向用戶。

圖1 語音識(shí)別基本框圖

2 語音信號(hào)特征及處理方法

發(fā)音器官主體為肺、喉、鼻和口，發(fā)生器官整體為形狀復(fù)雜的管道，喉部、口和鼻子為聲道，聲道形狀變化產(chǎn)生了發(fā)聲的不同；聲門產(chǎn)生語音的能量起到閥門和振動(dòng)的雙重作用，氣流由肺部壓力變化產(chǎn)生沖擊，聲帶將沖擊轉(zhuǎn)化為不同頻率振動(dòng)，由聲道響應(yīng)轉(zhuǎn)換成語音。不同的發(fā)音聲道形狀也相應(yīng)變化，最終將不同的聲音信息傳遞給周圍環(huán)境。聲帶是人類發(fā)音系統(tǒng)的關(guān)鍵器官，聲帶是語音的激勵(lì)源，聲帶振動(dòng)形成基本聲源，聲帶的開啟和閉合形成氣流脈沖，開啟和閉合一次時(shí)間為一個(gè)基音周期，基音周期的倒數(shù)為基音頻率，簡(jiǎn)稱基頻。聲帶發(fā)出基音決定聲音頻率，頻率高則音調(diào)高，頻率低則音調(diào)低，人類基音范圍在70-350Hz，但人類的性別、年齡影響基音頻率，整體趨勢(shì)為年齡高頻率偏低。語音發(fā)出后，聲波以空氣為載體進(jìn)行傳播，聲波是振動(dòng)方向和傳播方向相同的一種縱波。聲波是通過頻率和振幅進(jìn)行描述。聲波頻率決定了音高，聲波振幅決定了響度，頻率越高聲音越高，振幅大則響度大，但是頻率和振幅無直接聯(lián)系。

分折處理前需要將語音信號(hào)從輸入信號(hào)中分離，將語音轉(zhuǎn)化成數(shù)字化信號(hào)經(jīng)過放大器、增益控制、反混疊濾波，采樣，A/D轉(zhuǎn)換多個(gè)過程，預(yù)處理信號(hào)經(jīng)過預(yù)加重、加窗、分幀處理。圖2為語音信號(hào)處理簡(jiǎn)圖。

圖2 語音信號(hào)預(yù)處理簡(jiǎn)圖

3 語音識(shí)別模型及算法

模型是對(duì)信號(hào)本質(zhì)的數(shù)學(xué)描述，語音信號(hào)是非平穩(wěn)隨機(jī)信號(hào)，無法用確定性函數(shù)方程描述，因此必須分析多種語音識(shí)別數(shù)學(xué)模型，求解結(jié)果逼近實(shí)際值，因此要建立分類模型。目前可用模型有兩種：高斯混合模型和隱馬爾可夫模型。高斯混合模型的階數(shù)必須足夠大，才能全面體現(xiàn)特征空間的分布，采用的協(xié)方差矩陣類型為對(duì)角陣，高維特征空間計(jì)算量小，優(yōu)勢(shì)明顯。模型初值初始條件不同，局部極值差距較大，模型初值必須修正均值。訓(xùn)練數(shù)據(jù)少或背景噪聲過大時(shí)，方差幅度變小導(dǎo)致函數(shù)出現(xiàn)奇異性，只能通過方差限定提高計(jì)算精度。

隱馬爾可夫模型有全連結(jié)和從左到右兩種結(jié)構(gòu)，從左到右的模型根據(jù)其結(jié)構(gòu)特點(diǎn)有可以進(jìn)一步細(xì)分。全連結(jié)模型允許由一個(gè)狀態(tài)向其它任一狀態(tài)轉(zhuǎn)移，原理如圖3所示。由左到右模型某一狀態(tài)僅可向左/右側(cè)狀態(tài)轉(zhuǎn)移。高斯混合模型和隱馬爾可夫模型可適用不同場(chǎng)合的語音識(shí)別，但隱馬爾可夫模型應(yīng)用范圍更大。

圖3 全連接隱馬爾模型示意圖

4 語音識(shí)別的效果評(píng)定

利用兩種模型建立不同說話人識(shí)別模型階段，并在實(shí)驗(yàn)條件下測(cè)試不同因素對(duì)辨認(rèn)率和確認(rèn)率的影響，語音長(zhǎng)短對(duì)特征參數(shù)提取影響很大，因此對(duì)多人進(jìn)行錄音后進(jìn)行語音識(shí)別，檢測(cè)結(jié)果如圖4所示，辨認(rèn)率和確認(rèn)率都隨著識(shí)別語音和訓(xùn)練語音時(shí)長(zhǎng)增長(zhǎng)而增加，但信息量達(dá)到一定量時(shí)，識(shí)別率緩慢增加。

圖4 不同采集時(shí)間對(duì)識(shí)別率的影響

高斯混合模型采用單高斯密度函數(shù)線性的加權(quán)值調(diào)整實(shí)驗(yàn)表明，適當(dāng)增加權(quán)值可增加結(jié)果的真實(shí)分布程度；改進(jìn)卡爾曼濾波算法可以減少噪聲的影響，提高抗干擾能力，提取說話人的特征準(zhǔn)確度更高。

5 結(jié)論

針對(duì)傳統(tǒng)語音識(shí)別系統(tǒng)在噪音環(huán)境適應(yīng)性差的問題，分析了人類語音特征和信號(hào)處理策略，研究高斯混合數(shù)學(xué)模型和隱馬爾可夫數(shù)學(xué)模型在噪音環(huán)境中語音識(shí)別效果，適當(dāng)增加采集時(shí)長(zhǎng)，可有效提高語音的識(shí)別率，改進(jìn)算法也可提高數(shù)學(xué)模型在噪音環(huán)境的準(zhǔn)確度，對(duì)語音識(shí)別系統(tǒng)在信息化中應(yīng)用具有很好的指導(dǎo)意義。