亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        連續(xù)語音識別前端魯棒性研究

        2015-05-06 02:26:55曾慶寧黃桂敏
        電視技術(shù) 2015年24期
        關(guān)鍵詞:詞匯量識別率正確率

        胡 丹,曾慶寧,龍 超,黃桂敏

        (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

        連續(xù)語音識別前端魯棒性研究

        胡 丹,曾慶寧,龍 超,黃桂敏

        (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

        針對大詞匯量連續(xù)語音識別中識別率不高的問題,提出了將語音增強級聯(lián)在識別系統(tǒng)前端,在語音增強中將譜減法和對數(shù)最小均方誤差算法(logmmse)與用于噪聲估計的最小控制遞歸平均算法(imcra)相結(jié)合。識別系統(tǒng)使用Mel頻率倒譜系數(shù)(MFCC)提取特征,用隱馬爾科夫模型(HMM)訓(xùn)練與識別。實驗結(jié)果表明,該方法最高能使單詞識別率提高38.9%,使句子正確率提高21.8%。該方法用于大詞匯量連續(xù)語音識別是可行有效的。

        連續(xù)語音識別;語音增強;HMM;imcra;句子正確率

        語音識別在通信、家庭服務(wù)、汽車電子等眾多領(lǐng)域都有廣泛應(yīng)用。觀看非母語視頻或進行視頻會議時,利用語音識別技術(shù)為視頻自動加載字幕,可以在幫助人們提高聽力來理解視頻內(nèi)容的基礎(chǔ)上免去繁瑣的手動加載字幕工作。識別技術(shù)還可以運用到視頻終端領(lǐng)域,計算機將人的語音信號經(jīng)過識別和理解轉(zhuǎn)換成相應(yīng)的命令,對視頻終端進行操作控制,以代替鼠標(biāo)鍵盤等手動控制方式,提高用戶體驗。但語音識別技術(shù)也存在一定的不足。識別系統(tǒng)一般是將在安靜環(huán)境下訓(xùn)練出來的模型應(yīng)用于含噪的真實環(huán)境,真實環(huán)境中含有的噪聲會使系統(tǒng)的識別性能急劇下降,甚至無法工作,這在大詞匯量連續(xù)語音識別中更是如此。噪聲背景環(huán)境中的語音識別技術(shù)長期以來一直受到人們的關(guān)注,近年來在提高語音識別的抗噪能力方面,很多人做了大量的研究,在識別系統(tǒng)的前段應(yīng)用語音增強技術(shù)抑制背景噪聲就是其中的一種[1]。本文研究了一種在大詞匯量連續(xù)語音識別前端級聯(lián)一個語音增強系統(tǒng),增強系統(tǒng)中將語音增強算法與噪聲估計算法相結(jié)合以達到更好的去噪效果,從而增加識別系統(tǒng)的準(zhǔn)確率。

        1 語音增強

        1.1 譜減算法

        譜減算法[2](Spectral Subtraction,SS)的基本原理為,假設(shè)噪聲為加性噪聲,通過從帶噪語音譜中減去噪聲譜,就可以得到純凈的信號譜,在語音信號的間隙可以對噪聲譜進行重新估計和更新?;究驁D如圖1所示。

        圖1 譜減法框圖

        (1)

        其中:α,β為參數(shù),一般的譜減算法中α=2,β=1。

        1.2 對數(shù)最小均方誤差

        最小均方誤差[4](MMSE)是估計幅度和實際幅度均方誤差最小的優(yōu)化估計器,其計算式如式(2)所示

        (2)

        (3)

        通過求解可以得到最優(yōu)的對數(shù)估計器為

        (4)

        (5)

        其中:Yk是含噪語音信號的幅度,先驗信噪比為

        (6)

        后驗信噪比λk為

        (7)

        式中:λX(k)和λd(k)分別為第k個頻率點的信號方差和噪聲方差。

        1.3 改進的最小控制遞歸平均算法

        在含噪語音中,噪聲的估計是否準(zhǔn)確關(guān)系到語音增強算法的性能[6]。如果噪聲估計不準(zhǔn)確,在譜減算法中會產(chǎn)生殘留噪聲,在對數(shù)最小均方誤差算法中會導(dǎo)致先驗信噪比估計不準(zhǔn),從而影響其增強效果。

        傳統(tǒng)的譜減類算法中噪聲估計使用的話音活動檢測(Voice Activity Detection,VAD)算法一般會從輸入信號中提取一些特征(如短時能量,短時過零率),然后與無語音段得到的某個閾值進行比較,判斷是否為噪聲。

        對于大詞匯量連續(xù)語音識別來說,一個句子中包含多個單詞,在每個單詞的中間會有無聲段的存在,VAD算法就是檢測語句中無聲段對應(yīng)于閉塞輔音的閉合期來判斷是否為噪聲。但是用這種方法進行噪聲譜的更新所花的時間遠遠大于噪聲改變的時間,也就是說,噪聲更新周期太長而噪聲變化太快。所以需要其他更好的噪聲估計方法。

        噪聲對語音頻譜的影響在頻率上并不是均勻分布的,通過帶噪譜的高頻區(qū)域所提取出的信息可以更可靠地估計和更新噪聲譜。所以只要該頻帶無語音的概率很高或?qū)嶋H信噪比(Signal Noise Rate,SNR)很低,即可估計和更新單個頻帶的噪聲譜,這就是遞歸平均型噪聲估計方法[7]。

        IMCRA算法對噪聲的估計是通過引入一個條件語音存在概率ρ(k,l),并使用如下的遞歸平均得到[8]

        (8)

        其中:k為頻帶序號;l為幀序號;αd(0<αd<1)是一個平滑參數(shù);Y(k,l)為第k個頻率帶第l點的含噪語音幅度。為了計算式(8)中的條件語音存在概率ρ(k,l),需要進行兩次平滑和最小值搜索。

        首先進行功率譜的頻域平滑

        (9)

        其中:m為連續(xù)幀個數(shù);b(i)為加權(quán)因子。

        然后對Sf(k,l)做一階平滑回歸

        S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)

        (10)

        其中,αs為平滑因子。

        最小值搜索得

        Smin(k,l)=min{S(k′,l)|k-m+1≤k′≤k}

        (11)

        最后可以得到語音存在概率的估計為

        (12)

        2 語音識別

        在本文中基線系統(tǒng)為英語大詞匯量非特定人隱馬爾科夫(Hidden Markov Model,HMM)連續(xù)語音識別系統(tǒng)。系統(tǒng)首先由大量的文字生成語音模型,然后提取聲學(xué)特征,經(jīng)過Viterbi解碼得到識別結(jié)果,系統(tǒng)流程圖如圖2所示。系統(tǒng)中特征提取用的是Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC),采用HMM來訓(xùn)練聲學(xué)模型。

        圖2 語音識別系統(tǒng)流程圖

        2.1 MFCC

        語音信號經(jīng)過16 kHz的采樣之后經(jīng)過一個系統(tǒng)函數(shù)為H(z)=1-0.97z-1的高通濾波器,這個過程稱為預(yù)加重,預(yù)加重的目的是為了補償高頻分量的損失,提升高頻分量。為了將語音信號當(dāng)作穩(wěn)態(tài)信號來處理,將預(yù)加重后的信號進行分幀,再對信號加漢明窗以去除分幀之后的邊界效應(yīng),減少頻域中的泄漏。然后對信號進行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),計算每一幀的的能量。把能量譜與Mel濾波器的頻率響應(yīng)相乘并相加。再將其取對數(shù)并經(jīng)過離散余弦變換(Discrete Cosine Transform,DCT)計算12維的Mel倒譜系數(shù),和短時能量譜一起計算其一階和二階差分向量,最后得到每一幀的1個39維特征向量。其過程如圖3所示[9]。

        圖3 MFCC提取過程

        2.2 HMM

        隱馬爾科夫模型[10]是一種統(tǒng)計模型,它用來描述1個含有隱含未知參數(shù)的馬爾科夫過程,廣泛運用于語音識別中。1個HMM可以由λ=(N,M,π,A,B)來描述,如圖4所示。其中N、M分別為馬爾科夫鏈狀態(tài)數(shù)目與觀察值數(shù)目,π決定產(chǎn)生觀測的HMM初始狀態(tài)。A為狀態(tài)轉(zhuǎn)移概率矩陣,B為觀測值概率矩陣。

        圖4 HMM組成示意圖

        HMM語音識別的過程可以分為三部分。首先根據(jù)前向后向算法和遞推算法對已知模型的輸出和初始模型產(chǎn)生輸出序列的概率進行計算,然后利用BaumWelch算法和最大似然準(zhǔn)則校正模型,最后應(yīng)用Viterbi算法得到最佳識別結(jié)果。

        本文使用從左向右單項帶自環(huán)帶跨越拓撲結(jié)構(gòu)的HMM來建模,一個音節(jié)就是一個HMM,多個音節(jié)的HMM組成一個詞的HMM,系統(tǒng)整個模型是由詞和靜音的HMM組成。

        3 實驗結(jié)果和分析

        圖5a~5d分別為給出了在volvo噪聲和machinegun噪聲環(huán)境下,通過增強算法后再進行語音識別的實驗結(jié)果。

        a volvo噪聲環(huán)境下單詞的正確率

        b volvo噪聲環(huán)境下句子的正確率

        c machinegun噪聲環(huán)境下單詞的正確率

        d machinegun噪聲環(huán)境下句子的正確率圖5 噪聲背景下的識別結(jié)果

        圖中的“帶噪語音”是指疊加噪聲后的語音數(shù)據(jù)未經(jīng)過增強算法直接識別的結(jié)果,“specsub”和“l(fā)ogmmse”為語音數(shù)據(jù)在識別之前分別經(jīng)過基本譜減算法和對數(shù)最小均方誤差算法,“SS_imcra”和“l(fā)ogmmse_imcra”分別是譜減法和對數(shù)最小均方誤差在噪聲估計階段使用改進的最小遞歸控制平均算法。

        圖6a為在volvo噪聲環(huán)境下應(yīng)用SS_imcra分別在單詞正確率和句子正確率方面提高的百分比,圖6b為在machinegun噪聲環(huán)境下應(yīng)用logmmse_imcra在單詞正確率和句子正確率方面提高的百分比。

        a volvo噪聲

        b machinegun噪聲圖 6 不同噪聲環(huán)境下識別率提高的百分比

        表1表明除單獨使用譜減法外,其他算法對純凈語音的識別度并沒有大的下降,說明語音增強模塊并沒有降低系統(tǒng)在安靜環(huán)境下的工作性能。

        表1 純凈語音的識別率

        %

        方法句子正確率單詞正確率原始數(shù)據(jù)44.888.5specsub36.084.5SS_imcra41.286.5logmmse41.487.1logmmse_imcra41.887.6

        圖5a~5d表明并不是所有的語音增強算法都能提高連續(xù)語音識別的識別率,實驗中增強部分只用傳統(tǒng)譜減法時,單詞正確率和句子正確率都有一定程度的下降。

        實驗結(jié)果說明:在語音識別中,應(yīng)對不同種類的噪聲環(huán)境應(yīng)在前端應(yīng)用不同的語音增強算法,例如volvo環(huán)境下,在本文的4種增強算法中,SS_imcra能有效地提高識別率,但在machinegun環(huán)境下,只有l(wèi)ogmmse_imcra有效,其他的反而使識別率下降。

        圖6表明volvo噪聲環(huán)境下應(yīng)用SS_imcra,句子識別率在0 dB時能取得最好效果,但單詞識別率在信噪比低時效果更好。machinegun環(huán)境下應(yīng)用logmmse_imcra在句子的正確率方面能取得較好的效果。

        4 結(jié)論

        本文針對噪聲環(huán)境下大詞匯量連續(xù)語音識別中識別正確率不高,在語音被識別之前先通過一個語音增強系統(tǒng)。實驗表明,不是所有的增強算法應(yīng)用都能提高識別率,SS_imcra應(yīng)用到volvo噪聲環(huán)境下以及l(fā)ogmmse_imcra應(yīng)用到machinegun環(huán)境下在單詞和句子水平都能取得很好的效果。

        [1] 徐義芳,張金杰,姚開盛,等. 語音增強用于抗噪聲語音識別[J]. 清華大學(xué)學(xué)報:自然科學(xué)版,2001(1):41-45.

        [2] 萬義龍, 張?zhí)祢U, 王志朝, 等. 基于多頻帶譜減法的抗噪聲語音識別研究[J]. 電視技術(shù), 2013, 37(23):183-187.

        [3] LOIZOU P C. Speech enhancement: theory and practice[M]. The Chemical Rubber Company Press, 2013:75-109.

        [4] GONZALEZ J, PEINADO A M, Ma N, et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition[J]. IEEE Trans. Audio, Speech, and Language Processing, 2013, 21(3): 624-635.

        [5] LUN D P K, SHEN T W, HO K C. A Novel expectation-maximization framework for speech enhancement in non-stationary noise environments[J]. IEEE/ACM Trans. Audio, Speech, and Language Processing,2014, 22(2): 335-346.

        [6] 蔡鐵, 唐飛, 龍志軍. 采用子帶長時信號變化特征的穩(wěn)健語音活動檢測[J]. 電視技術(shù), 2014, 38(19):228-232.

        [7] 張東方, 蔣建中, 張連海. 一種改進型 IMCRA 非平穩(wěn)噪聲估計算法[J]. 計算機工程, 2012, 38(13):270-272.

        [8] COHEN I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Trans. Speech and Audio Processing, 2003, 11(5): 466-475.

        [9] 宋知用. MATLAB在語音信號分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:37-42.

        [10] 王炳錫,屈丹,彭煊. 實用語音識別基礎(chǔ)[M]. 北京:國防工業(yè)出版社,2005:180-192.

        胡 丹(1991— ),碩士生,主研語音信號處理;

        曾慶寧(1963— ),教授,碩士生導(dǎo)師,主要研究方向為語音信號處理、圖像信號處理、陣列信號處理;

        龍 超(1966— ),女,高級實驗師,主要研究方向為機器人聽覺;

        黃桂敏(1965— ),教授,博士生導(dǎo)師,主要研究方向為計算機網(wǎng)絡(luò)。

        責(zé)任編輯:時 雯

        Front-end Robust Study for Continuous Speech Recognition

        HU Dan, ZENG Qingning, LONG Chao, HUANG Guimin

        (SchoolofInformationandCommunication,GuilinUniversityofElectronicTechnology,GuangxiGuilin541004,China)

        For the accuracy rate of large vocabulary continuous speech recognition is low, using a speech enhance system before recognition is proposed. In this system, spectral subtraction and logarithmic minimum mean square error (logmmse) is combined with improved minimum controlled recursive average algorithm (imcra) which for noise estimation. In recognition system, Mel Frequency Cepstral Coefficients (MFCC) is used to extract features and Hidden Markov Model (HMM) is used to training and recognition. Experimental results show that word recognition rate increased by 38.9% and sentence accuracy rate increase by 21.8% due to the use of the method proposed in this paper. The method used for large vocabulary continuous speech recognition is feasible and effective.

        continuous speech recognition; speech enhancement; HMM; imcra; sentence correct rate

        國家自然科學(xué)基金項目(61461011;41201479);廣西自然科學(xué)基金項目(AA053232;BA118273);桂林電子科技大學(xué)研究生科研創(chuàng)新項目(GDYCSZ101456)

        TN912.34

        A

        10.16280/j.videoe.2015.24.010

        2015-06-18

        【本文獻信息】胡丹,曾慶寧,龍超,等.連續(xù)語音識別前端魯棒性研究[J].電視技術(shù),2015,39(24).

        猜你喜歡
        詞匯量識別率正確率
        門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        用詞類活用法擴充詞匯量
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識別率方案研究
        Receptive and Productive Vocabulary in Language Teaching
        生意
        品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
        天津護理(2016年3期)2016-12-01 05:40:01
        生意
        故事會(2016年15期)2016-08-23 13:48:41
        高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
        白色橄榄树在线免费观看| 久久国产成人精品国产成人亚洲| 日韩丰满少妇无码内射| 少妇人妻偷人精品无码视频| 国产粉嫩高清| 在线观看国产一区二区av| 在线视频播放观看免费| 国产精品午夜夜伦鲁鲁| 亚洲va久久久噜噜噜久久男同 | 亚洲色婷婷免费视频高清在线观看| 亚洲一区极品美女写真在线看| 91麻豆精品国产91久久麻豆| 日本特黄特色特爽大片| 日韩精品无码视频一区二区蜜桃| 国产人澡人澡澡澡人碰视频| 亚洲无人区乱码中文字幕| 久久综合久久美利坚合众国| 国产麻豆精品久久一二三| 午夜国产一区二区三区精品不卡| 97久久综合区小说区图片区| 国产精品天堂在线观看| 日日碰狠狠添天天爽超碰97久久| 人妻少妇精品专区性色av| 日本精品免费一区二区三区| 亚洲一区二区自偷自拍另类| 亚洲偷自拍国综合第一页| 免费99精品国产自在在线| 中文AV怡红院| 国产免费网站在线观看不卡| 黄桃av无码免费一区二区三区| 污污污污污污WWW网站免费| 亚洲综合五月天欧美| 蜜桃视频一区视频二区| 777精品出轨人妻国产| 亚洲国产无线乱码在线观看| 一区二区久久精品66国产精品| 婷婷色国产精品视频二区 | 国产精品jizz视频| 欧美亚洲国产丝袜在线| 国产老熟女精品一区二区| 狠狠做深爱婷婷久久综合一区|