亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)音起始段檢測(cè)語(yǔ)音可懂度客觀評(píng)價(jià)方法*

        2015-12-08 09:26:10徐宇卓馬建芬張雪英
        電子技術(shù)應(yīng)用 2015年6期
        關(guān)鍵詞:輔音頻帶信噪比

        徐宇卓,馬建芬,張雪英

        (1.太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原030024;2.太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)

        基于語(yǔ)音起始段檢測(cè)語(yǔ)音可懂度客觀評(píng)價(jià)方法*

        徐宇卓1,馬建芬1,張雪英2

        (1.太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原030024;2.太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)

        傳統(tǒng)的語(yǔ)音評(píng)價(jià)算法,如SNR,存在語(yǔ)音的可懂度相關(guān)性不高的問(wèn)題。有研究表明,語(yǔ)音的不同部分對(duì)可懂度的貢獻(xiàn)不同,語(yǔ)音的濁音起始段對(duì)可懂度的影響較大。提出一種可懂度相關(guān)性相對(duì)較高的語(yǔ)音評(píng)價(jià)算法。在計(jì)算分段SNR之前,對(duì)語(yǔ)音段進(jìn)行選擇,選出起始段。所提出方法的可懂度計(jì)算結(jié)果與主觀得分進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,結(jié)合語(yǔ)音起始段(speech onset)檢測(cè)算法,能夠?qū)⒖啥扰c主觀評(píng)價(jià)的相關(guān)值分別提高0.11(輔音)和0.06(句子),這也從一個(gè)側(cè)面驗(yàn)證了語(yǔ)音的起始段對(duì)可懂度有較大影響這一研究結(jié)論。

        語(yǔ)音可懂度;分段信噪比;語(yǔ)音起始段檢測(cè);相關(guān)系數(shù)

        0 引言

        人們提出了大量的評(píng)價(jià)方法來(lái)預(yù)測(cè)在背景噪聲存在條件下的語(yǔ)音可懂度。在這些方法中,SII(Speech Intelligence Index)是現(xiàn)今最廣泛使用的語(yǔ)音可懂度指數(shù)的方法。SII的評(píng)價(jià)是基于語(yǔ)音的可懂度取決于譜信息比例的思想,譜信息比例是可被聽(tīng)者聽(tīng)到的并通過(guò)頻譜分割成20個(gè)頻帶(同樣適用于可懂度),并估計(jì)每個(gè)頻帶的信號(hào)噪聲比(SNR)加權(quán)平均值。每一個(gè)頻帶中的信噪比由頻帶重要性函數(shù)加權(quán),該函數(shù)根據(jù)語(yǔ)料的不同而不同[1]。SII方法能夠成功預(yù)測(cè)出線性濾波和加性噪聲對(duì)語(yǔ)音可懂度的影響[2,3]。然而,還是有許多局限的。其中一個(gè)局限是,SII不能應(yīng)用于語(yǔ)音嵌入在波動(dòng)掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來(lái)評(píng)估在波動(dòng)掩蔽條件下的語(yǔ)音可懂度。例如,Rhebergen提出將語(yǔ)音和掩蔽信號(hào)分割成短幀(9~20 ms),估計(jì)每一幀中的瞬時(shí) AI(Articulation Index)值以及平均所有幀計(jì)算后的AI值來(lái)產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認(rèn)為在估計(jì)嵌入在人工掩蔽信號(hào)(比如周期干擾噪聲)和類語(yǔ)音

        掩蔽信號(hào)中的句子時(shí)能夠比傳統(tǒng)的AI方法更好地預(yù)測(cè)語(yǔ)音可懂度,但是,后者在預(yù)測(cè)方面是不夠準(zhǔn)確的[4]。

        MA J、HU Y和 LOIZOU P C等學(xué)者提出用清晰語(yǔ)音作為權(quán)值來(lái)代替SII算法中的ANSI經(jīng)驗(yàn)權(quán)值,可懂度有所提高[5]。所有這些改進(jìn)都是針對(duì)于頻域進(jìn)行的,并沒(méi)有考慮在時(shí)域?qū)π盘?hào)進(jìn)行選擇。然而不同的語(yǔ)音段對(duì)可懂度的貢獻(xiàn)有所不同,如濁音段比清音段或無(wú)聲段對(duì)可懂度的影響要大,這一點(diǎn)也和平時(shí)的經(jīng)驗(yàn)相一致。比如在聽(tīng)一句話時(shí),有時(shí)雖然不能完全聽(tīng)清晰所有的詞,但只要能聽(tīng)清楚關(guān)鍵的詞,就能通過(guò)聯(lián)想猜出整個(gè)句子的含義。而如果沒(méi)有聽(tīng)清楚關(guān)鍵詞,即使其他部分能夠聽(tīng)清楚,也無(wú)法猜出整個(gè)句子的含義。研究表明濁音段,尤其是音節(jié)的起始部分對(duì)可懂度的影響最大[6],根據(jù)這一思想,本研究提出在時(shí)域選取語(yǔ)音的起始段,然后再對(duì)選出的語(yǔ)音段進(jìn)行SII分析。

        1 實(shí)驗(yàn)方法及數(shù)據(jù)

        可懂度評(píng)價(jià)算法使用的是HU Y和LOIZOU P C通過(guò) 8種不同的噪聲抑制算法處理的語(yǔ)音信號(hào)[7],下面簡(jiǎn)要介紹這些語(yǔ)料及增強(qiáng)處理算法。

        1.1 語(yǔ)料和主觀評(píng)價(jià)

        IEEE的句子和輔音在/aCa/格式中被用于測(cè)試材料。輔音測(cè)試包含16個(gè)記錄在/aCa/目錄中的輔音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子,句子和輔音原始采樣為25 kHz,下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語(yǔ)音材料中。掩蔽信號(hào)來(lái)自于AURORA數(shù)據(jù)庫(kù)[8],并且包括了不同地方的真實(shí)錄音:餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語(yǔ)音信號(hào)中的。

        1.2 去噪算法

        8種不同的去噪算法用來(lái)處理受到噪聲干擾的句子,其中包括:廣義子空間的算法、以感知為基礎(chǔ)的子空間算法、最小均方誤差對(duì)數(shù)算法、關(guān)于語(yǔ)音存在的不確定性的最小均方誤差對(duì)數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關(guān)于語(yǔ)音存在的不確定性的最小均方誤差對(duì)數(shù)算法,其他所有的算法都是基于自身的實(shí)現(xiàn)。這些算法實(shí)現(xiàn)所使用的參數(shù)與公布的是相同的。當(dāng)前測(cè)試研究的所有噪聲算法的MATLAB實(shí)現(xiàn)也由LOIZOU P C完成了。

        1.3 實(shí)驗(yàn)流程

        總共有40個(gè)當(dāng)?shù)氐拿勒Z(yǔ)講話者被招募用于句子可懂度的測(cè)試,這40個(gè)聽(tīng)者被分成4個(gè)小組(每個(gè)噪聲型為一組),每個(gè)小組有10名聽(tīng)者。每位受試者共參加了19項(xiàng)聽(tīng)力條件(=2個(gè)信噪比等級(jí)×8個(gè)算法+2個(gè)帶噪?yún)⒖?1個(gè)安靜)。2個(gè)IEEE的句子列表(每個(gè)列表有10個(gè)句子)被用于每一個(gè)條件中。句子列表都是不重復(fù)的。另有10名聽(tīng)者加入輔音識(shí)別任務(wù)。被試者按照隨機(jī)順序每個(gè)輔音重復(fù)6次。處理后的語(yǔ)音文件(句子/輔音)以及清晰和帶噪語(yǔ)音文件以單耳的形式呈現(xiàn)給聽(tīng)者。

        HU Y和 LOIZOU P C研究的可懂度產(chǎn)生了總共 72種帶噪環(huán)境,其中包括噪聲干擾(未處理)環(huán)境[9]。這 72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級(jí)(0和 5 dB)在 4種類型的真實(shí)環(huán)境(餐廳、汽車、街道和火車)中引起的失真。在這72種條件下得到的可懂度得分在當(dāng)前的研究中被用于評(píng)估大量之前的和新提出的客觀評(píng)價(jià)的可預(yù)測(cè)功率。

        2 語(yǔ)音起始段檢測(cè)方法

        語(yǔ)音信號(hào)隨時(shí)間變化的頻譜特性可以用語(yǔ)譜圖直觀地表示。語(yǔ)譜圖的縱軸對(duì)應(yīng)于頻率,橫軸對(duì)應(yīng)于時(shí)間,而圖像的黑白度對(duì)應(yīng)于信號(hào)的能量。所以,聲道的諧振頻率在圖上就表示成為黑帶,濁音部分則以出現(xiàn)條紋圖形為其特征,這是因?yàn)榇藭r(shí)的時(shí)域波形有周期性,而在濁音的時(shí)間間隔內(nèi)圖形顯得很致密[10]。圖1為“A gold ring will please most any girl”語(yǔ)音的語(yǔ)譜圖。

        圖1 “A gold ring will please most any girl”語(yǔ)音的語(yǔ)譜圖

        如果有必要,語(yǔ)音信號(hào)首先要重新采樣。重新采樣出來(lái)的信號(hào)要經(jīng)過(guò)一個(gè)等響度濾波的處理,之后要使用一個(gè)二階的butterworth濾波器[6]的信道進(jìn)行濾波得出信道信號(hào)。

        圖2 測(cè)試語(yǔ)音的一部分的包絡(luò)和起始段速率

        圖2中上圖是包絡(luò)圖,下圖是起始段速率圖。包絡(luò)圖中的包絡(luò)是通過(guò)對(duì)信道信號(hào)的全波整流得到的。起始段速率是用來(lái)計(jì)算全頻帶信道的,而它是由包絡(luò)速率的

        半波整流得到的,其中,包絡(luò)速率是計(jì)算包絡(luò)的第一次差值。圖2中是測(cè)試語(yǔ)音的一部分,上圖表現(xiàn)的是語(yǔ)音句子的一部分(A gold ring)包絡(luò),下圖給出的是對(duì)應(yīng)的起始段。豎線是人工標(biāo)記出來(lái)的音節(jié)邊界。

        每一個(gè)起始段都有3個(gè)重要的位置,即起始段開(kāi)始(onset start)、起始段峰(onset peak)、起始段結(jié)束(onset end),如圖2(b)所示。起始段開(kāi)始被定義為起始段速率首次大于0時(shí)的采樣指數(shù),它對(duì)應(yīng)著原包絡(luò)從谷值到開(kāi)始的轉(zhuǎn)折點(diǎn),并被認(rèn)為是候選音節(jié)邊界位置。相反,起始段結(jié)束定義為起始段速率最終跌回到0的采樣指數(shù),它對(duì)應(yīng)于原包絡(luò)的峰值且是一個(gè)候選音節(jié)核位置。最后,起始段峰是起始段速率達(dá)到其最大值的采樣指數(shù)。

        3 基于語(yǔ)音起始段檢測(cè)語(yǔ)音可懂度客觀評(píng)價(jià)算法

        時(shí)域分段信噪比(SNRseg)算法[11]在 Hansen和 Pellom的文章中提到,且計(jì)算公式如下:

        式中,D(j,m)表示在混合之前得到的縮放的掩蔽信號(hào)的臨界頻帶譜,(j,m)表示第j個(gè)頻帶的增強(qiáng)信號(hào)的臨界頻帶譜大小。且式(3)中的SNR的范圍是[-15,15]dB,通過(guò)式(2)線性映射每一頻帶0~1之間的值。

        4 實(shí)驗(yàn)結(jié)果

        有兩個(gè)數(shù)被應(yīng)用于在預(yù)測(cè)語(yǔ)音可懂度中估計(jì)上述客觀評(píng)價(jià)的表現(xiàn)[9]。第一個(gè)數(shù)是Pearson相關(guān)系數(shù)r,第二個(gè)是誤差的標(biāo)準(zhǔn)差估計(jì)值,計(jì)算公式為,其中σd是給出的條件的語(yǔ)音識(shí)別得分的標(biāo)準(zhǔn)差,σe是計(jì)算誤差的標(biāo)準(zhǔn)差。較小的σe值表明客觀評(píng)價(jià)在預(yù)測(cè)語(yǔ)音可懂度方面是較好的。

        對(duì)正常聽(tīng)力的試聽(tīng)者在72種不同噪聲環(huán)境下得到的平均可懂度得分進(jìn)行相關(guān)分析,這些分析是客觀評(píng)價(jià)得到的相關(guān)平均值。包括噪聲抑制語(yǔ)音的這些條件最初受到了4種不同的掩蔽信號(hào)(餐廳、汽車、街道和火車)的干擾。計(jì)算的相關(guān)系數(shù)(預(yù)測(cè)誤差)位于表1中。

        從表1中能夠看出,對(duì)于分段信噪比(SNRseg)[11],輔音和句子的Pearson系數(shù)分別為0.40和0.46;而對(duì)于使用了語(yǔ)音起始段檢測(cè)方法的分段信噪比(SNRseg_onset),輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來(lái)對(duì)于4種的不同掩蔽來(lái)觀察其相關(guān)系數(shù),位于表2中。

        表1 傳統(tǒng)的評(píng)價(jià)算法與本文提出算法的輔音得分和句子得分的相關(guān)系數(shù)對(duì)比

        表2給出的分別是分段信噪比(SNRseg)和語(yǔ)音起始段檢測(cè)分段信噪比 (SNRseg_onset)的4種不同掩蔽信號(hào)(餐廳、汽車、街道和火車)的相關(guān)系數(shù)。從表2中能夠看出,對(duì)于輔音aCa,語(yǔ)音起始段分段信噪比算法(SNRseg_onset)相對(duì)于分段信噪比算法(SNRseg)的Pearson相關(guān)系數(shù)都有所提高。而對(duì)于句子Sen,大體都是所提高的,只有在火車噪聲掩蔽下,相關(guān)系數(shù)是有所下降的??偟膩?lái)說(shuō),由表1和表2中可以觀察到,語(yǔ)音起始段檢測(cè)分段信噪比算法(SNRseg_onset)的相關(guān)系數(shù)確實(shí)是提高了很多的。這就說(shuō)明語(yǔ)音起始段檢測(cè)方法用于SNR評(píng)價(jià)算法是有較好的表現(xiàn)的,也充分說(shuō)明語(yǔ)音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有正面的影響的。

        表2 傳統(tǒng)的評(píng)價(jià)算法與本文提出算法在4種噪聲掩蔽下的輔音得分和句子得分的相關(guān)系數(shù)對(duì)比

        5 結(jié)論

        當(dāng)前的研究是在真實(shí)噪聲條件下評(píng)價(jià)就預(yù)測(cè)語(yǔ)音可懂度而言傳統(tǒng)的客觀評(píng)價(jià)算法(SNRseg)和新的客觀評(píng)價(jià)算法(SNRseg_onset)的表現(xiàn)。這些客觀評(píng)價(jià)算法在總共72個(gè)噪聲條件下進(jìn)行測(cè)試,這些噪聲條件包括在真實(shí)世界的噪聲類型(汽車、餐廳、火車和街道噪聲)干擾下的處理過(guò)的句子和無(wú)意義的音節(jié)。傳統(tǒng)的SNR評(píng)價(jià)算法的表現(xiàn)是不夠好的(輔音 r=0.40,句子 r=0.46),而當(dāng)結(jié)合了本文提出的語(yǔ)音起始段檢測(cè)算法的SNR,即SNRseg_onset評(píng)價(jià)算法,其在預(yù)測(cè)語(yǔ)音可懂度方面有較

        好的表現(xiàn)(輔音r=0.51,句子 r=0.52)。同時(shí)也說(shuō)明語(yǔ)音起始段(speech onset)對(duì)于 SNR評(píng)價(jià)算法確實(shí)是有好的影響的,表明結(jié)合語(yǔ)音起始段(speech onset)檢測(cè)算法能夠提高客觀評(píng)價(jià)算法的性能。

        [1]HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.

        [2]LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.

        [3]KRYTER K D.(1962b).Validation of the articulation index[J]. Journal of the Acoustical Society of America,1962(34):1698-1706.

        [4]RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.

        [5]MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.

        [6]VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.

        [7]HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.

        [8]DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.

        [9]HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.

        [10]張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:19.

        [11]KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.

        Objective measures for predicting speech intelligibility in noisy conditions based on speech onset detection

        Xu Yuzhuo1,Ma Jianfen1,Zhang Xueying2
        (1.College of Computer Science and Technology,Taiyuan University of Technology,Taiyuan 030024,China;2.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China)

        Traditional speech objective measure,like SNR,has a poor correlation with speech intelligibility.Studies have shown that the different parts of speech have different contributions.Speech onset has a greater impact on speech intelligibility. Think about it,this paper presents a speech objective measure which has a relatively high correlation with speech intelligibility.Before computing segment SNR,speech and the relative onset should be selected correctly and precisely.The proposed measures were evaluated with intelligibility scores obtained by normal-hearing listeners.The results from this study clearly suggest that correlations between speech intelligibility and subjective evaluation could relatively increased by 0.11(consonant)and 0.06(sentence)with the proposed speech onset detection.It verifies the study result that speech onset does have a great impact on speech intelligibility.

        speech intelligibility;segmental SNR;speech onset detection;correlation coefficient

        TP391.9

        A

        0258-7998(2015)06-0150-04

        10.16157/j.issn.0258-7998.2015.06.041

        2015-03-09)

        徐宇卓(1987-),男,碩士研究生,主要研究方向:語(yǔ)音信號(hào)處理。

        馬建芬(1967-),通信作者,女,博士,教授,主要研究方向:語(yǔ)音信號(hào)處理、自然語(yǔ)言處理,E-mail:majianfentyut@126.com。

        張雪英(1964-),女,博士,教授,主要研究方向:語(yǔ)音信號(hào)處理。

        高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20111402110013)

        猜你喜歡
        輔音頻帶信噪比
        失去爆破和不完全爆破
        BR Sounds
        英語(yǔ)的輔音連綴
        Wi-Fi網(wǎng)絡(luò)中5G和2.4G是什么?有何區(qū)別?
        基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
        單音及部分頻帶干擾下DSSS系統(tǒng)性能分析
        輔音連綴全接觸
        低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        雙頻帶隔板極化器
        人妻夜夜爽天天爽三区| 精品久久久久88久久久| 人妻无码中文专区久久AV| 97人妻蜜臀中文字幕| 久久午夜一区二区三区| 亚洲伊人av天堂有码在线| 国产免费观看黄av片| 国产h视频在线观看| 人人狠狠综合久久亚洲| 亚洲成av人片在线观看麦芽| 最好看的亚洲中文字幕| 国产精品人人做人人爽人人添 | 中文乱码字慕人妻熟女人妻| 精品熟女日韩中文十区| 久久亚洲道色宗和久久| 无码久久精品蜜桃| 亚洲一区二区三区在线看| 97丨九色丨国产人妻熟女| 无码丰满熟妇一区二区| 日韩人妻精品无码一区二区三区 | 国产偷国产偷亚洲高清| 国产在线91精品观看| 午夜免费电影| 国精产品一品二品国在线| 国产欧美另类精品久久久| 国产精品三级自产拍av| 中文字幕亚洲精品在线免费| 国产精品久久精品第一页| 国产精品黄色在线观看| 亚洲女优中文字幕在线观看| 午夜性色一区二区三区不卡视频| 无码人妻久久一区二区三区app| 老外和中国女人毛片免费视频| 国产精品久久久久国产a级| 亚洲Va中文字幕久久无码一区| yy111111少妇影院| 中文字幕亚洲入口久久| 又湿又紧又大又爽a视频国产| 欧美亚洲熟妇一区二区三区| 中国亚洲女人69内射少妇| 美女超薄透明丝袜美腿|