亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音端點檢測在實時語音截取中的應(yīng)用

        2017-11-15 02:43:18洪奕鑫張浩川吳哲順
        無線互聯(lián)科技 2017年22期
        關(guān)鍵詞:范數(shù)端點信噪比

        洪奕鑫,張浩川,余 榮,吳哲順

        (廣東工業(yè)大學(xué) 自動化學(xué)院,廣東 廣州 510006)

        語音端點檢測在實時語音截取中的應(yīng)用

        洪奕鑫,張浩川,余 榮,吳哲順

        (廣東工業(yè)大學(xué) 自動化學(xué)院,廣東 廣州 510006)

        語音端點檢測在語音識別系統(tǒng)中占有重要地位.針對在噪聲多變的環(huán)境中實時截取完整語音信號存在困難,文章提出一種實時語音端點檢測方法.該方法首先提取每幀信號的短時平均過零率與Mel頻率倒譜系數(shù);然后利用前N幀背景噪聲的Mel頻率倒譜系數(shù)對當(dāng)前幀進行歸一化,并以該特征矢量的L2范數(shù)作為另一特征;最后根據(jù)多特征分析對有效語音信號進行截取.實驗結(jié)果表明,該方法在多變的噪聲環(huán)境中,截取完整語音信號具有較高準(zhǔn)確率.

        語音端點檢測;Mel頻率倒譜系數(shù);短時平均過零率;多特征

        隨著人工智能的發(fā)展和語音處理技術(shù)的日漸成熟,自然語音交互技術(shù)也得到了快速發(fā)展.目前,云端模式逐漸興起,終端負責(zé)簡單的語音信號處理運算,將運算量較大的部分托付給云端,這樣可以降低終端的運行壓力,也為語音交互提供了更多選擇.相應(yīng)的,各大語音云服務(wù)廠商已經(jīng)推出了各種語音接入方案,終端只需將實時的語音信號數(shù)據(jù)發(fā)送至語音云服務(wù)廠商的語音處理引擎中,即可對語音數(shù)據(jù)作進一步處理.在這種情況下,終端如何在實時接收到的麥克風(fēng)采樣數(shù)據(jù)中保證獲得的語音數(shù)據(jù)的完整性,關(guān)乎整個實時語音交互系統(tǒng)的穩(wěn)定性.

        語音端點檢測技術(shù)是在一段帶噪的音頻信號中檢測出語音的有效起始與終止位置,在現(xiàn)有技術(shù)方案中,語音端點檢測方法大致可分為基于模式識別[1-2]與基于特征判決[3-4]兩大類.由于模式識別的方法相比于特征判決在信噪比較低的環(huán)境下通常能夠取得較好的效果,但其前提是訓(xùn)練樣本足以表征端點特征的統(tǒng)計特性,且存在訓(xùn)練算法繁瑣、計算量大等缺點,因此很難在實時系統(tǒng)中使用;而基于特征的判決方法由于計算簡單、響應(yīng)速度快被廣泛研究和應(yīng)用.傳統(tǒng)特征判決算法很多,如時域中的雙門限算法[5]、頻域中的倒譜距離[6]的檢測算法等;目前應(yīng)用較廣的有基于短時過零率、譜熵與倒譜距離的檢測方法.但不同特征本身在表征語音信號特性存在一定的局限,短時過零率在高信噪比中能有效區(qū)分清音幀,而在低信噪比較高的場合幾乎失效;倒譜距離類似于短時對數(shù)能量特性,對聲音敏感,對于實時環(huán)境中存在的諸如碰撞、敲打聲極易出現(xiàn)誤判;而譜熵由于難以區(qū)分弱摩擦音,容易錯失起始音節(jié)從而導(dǎo)致語音數(shù)據(jù)的不完整.因此在噪聲多變的環(huán)境中,使用單一特征判決的算法無法取得理想的效果.

        本文提出的算法融合了短時平均過零率與Mel頻率倒譜系數(shù)的L2范數(shù)各自的優(yōu)勢,同時利用短時過零率的局部統(tǒng)計特性來跟蹤多變的環(huán)境噪聲來自適應(yīng)調(diào)整閾值,因此在實時檢測過程中,極大地提高了語音有效信號截取的準(zhǔn)確性.

        1 實時語音信號截取算法

        完整的實時語音截取算法包括音頻信號的預(yù)處理、特征提取、端點檢測與后處理4個步驟,步驟之間雖然在功能上劃分相對明確,卻缺一不可.如何處理好這4個步驟,關(guān)系到整個語音信號截取的效果.

        1.1 預(yù)處理

        在實時語音信號分析過程中,為提取更好的語音特征,通常在信號預(yù)處理階段所采用的方法是對語音信號進行預(yù)加重、分幀、加窗等操作.由于語音信號具有短時平穩(wěn)與短時相關(guān)的特性,分幀過程中通常設(shè)置每幀信號x[n]的幀長在10~40 ms之間,幀移一般取值為幀長的一半;之后通過一階濾波器來提高語音高頻部分的權(quán)重以消除低頻信號的干擾;最后使用合適的窗函數(shù)來緩解短時頻域分析所產(chǎn)生的頻譜能量泄露問題[7],常見的窗函數(shù)有矩形窗、漢明窗等.

        1.2 特征提取

        1.2.1 短時過零率

        短時過零率作為語音時域分析的一種特征參數(shù).該特征可以在一定程度上反映其頻譜性質(zhì),因此可以通過短時平均過零率獲得譜特性的粗略估計.在離散信號下,短時平均過零率實際就是信號采樣點符號變化的次數(shù).對于離散信號,x[n]短時平均過零率定義為:

        式中,N是信號的有效長度,其中符號函數(shù)定義為:

        1.2.2 Mel頻率倒譜系數(shù)

        在內(nèi)耳頻率分析的人類聲音感知模型的觸發(fā)下,由Davis等在1989年首次提出Mel頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC).Mel頻率倒譜系數(shù)的基本思想是,基于濾波器組的頻率分析,濾波器組的帶寬間隔約為臨界子帶的間隔[8].MFCC特征提取步驟為:

        (1)將音頻信號分幀加窗;

        (2)利用傅里葉變換計算頻譜;

        (3)將頻譜按照Bark的劃分方式劃分為N個單元,對這N個單元使用濾波器組分別計算每個濾波器對應(yīng)的Bark單元中的能量;

        (4)將步驟3中獲取的每個能量轉(zhuǎn)換為對應(yīng)的對數(shù)能量;

        (5)對步驟4中的結(jié)果作離散余弦變換;

        (6)保留變換后的12~20個結(jié)果,該結(jié)果即為求解的MFCC特征向量.

        從以上的提取過程中可以明顯地看出,MFCC特征本質(zhì)上是在一定的頻譜范圍計算該頻段所持有的能量,而這個頻段是基于人耳聽覺,因此它擁有與短時能量相似的特性,但在語音部分表現(xiàn)出一種放大效應(yīng).

        由于MFCC特征在不同維度上數(shù)值差異大,為了平均每一維度的貢獻與減弱聲學(xué)信號扭曲的影響,本文對MFCC特征作均值歸一化處理,其均值歸一化后的特征矢量如下:

        之后將歸一化所得的特征矢量的L2范數(shù)作為分析特征,其定義為:

        式中n代表MFCC特征的階數(shù).

        1.3 門限估計

        由于聲波引入的頻譜衰減,語音能量集中于3 KHz以下,而清音的大部分能量位于高頻,因此清音幀對應(yīng)高過零率,而濁音幀對應(yīng)低過零率[9].在信噪比較高的場合中,短時平均過零率可以很好地甄別出語音的清音幀,而當(dāng)信噪比較低時,濁音幀則更容易被檢測到[10].因此,在實時檢測過程中,為及時跟蹤這種變換趨勢,本文利用一個長度為N的緩存器來實時更新最近一段時間的輸入信號的過零率,如下:

        利用標(biāo)準(zhǔn)差可衡量數(shù)據(jù)波動范圍的特性,短時過零率的閾值通過以下規(guī)則來自適應(yīng)更新:

        在實時噪聲環(huán)境中,MFCC特征L2范數(shù)在靜音段相對平穩(wěn),波動程度小,其特性與短時能量相似,不僅對聲音敏感,而且具有較好的抗噪能力,因此定義其閾值更新規(guī)則:

        其中β,η是調(diào)節(jié)因子,可通過實驗調(diào)節(jié)M為前N幀背景噪聲MFCC特征L2范數(shù)的均值.

        939 Application and development of artificial intelligence technology in nursing

        1.4 語音幀提取步驟

        在實時檢測過程中,假設(shè)前N幀信號為背景噪聲,并以此估計MFCC的L2范數(shù)門限,記為Tm;同理估算短時平均過零率門限,記為Tz.為說明方便,記當(dāng)前幀MFCC的L2范數(shù)為Mc,當(dāng)前幀的短時平均過零率為Zc,算法執(zhí)行過程如下.

        (1)實時采集音頻數(shù)據(jù)并預(yù)處理;

        (2)提取Mc與Zc;

        (3)判斷是否連續(xù)N幀Mc過門限,否則更新短時平均過零率的歷史緩存,同時更新Tm和Tz,重復(fù)步驟1和2,是則進入步驟4;

        (4)同時緩存音頻幀和Zc,直到Mc回落到門限以下;

        (5)判斷步驟4緩存的短時平均過零率是否存在連續(xù)M幀越過Tz的幀,判決方式為:

        Z為緩存中數(shù)據(jù)的均值;

        (6)若步驟5條件成立,則緩存的音頻段為有效語音,否則丟棄;

        (7)重復(fù)以上步驟.

        以上算法關(guān)鍵步驟為4與5,步驟4成立則確認聲音出現(xiàn),而步驟5用于進一步確定該聲音是否為語音.同時步驟5中采用絕對值的比較方法,其目的在于解決短時平均過零率在不同信噪比條件下所表現(xiàn)出的不同波形形態(tài)問題,該問題在實驗中將詳細闡述.

        2 實驗

        2.1 實驗環(huán)境及數(shù)據(jù)來源

        本實驗在普通的辦公環(huán)境下進行,為模擬實時過程,通過單通道、采樣率16 kHz采集50組包含撞擊、拍打等辦公噪聲的語音信號,每組信號時長10 min.實驗中以30 ms對語音信號進行分幀,幀移15 ms;在計算Mel頻率倒譜系數(shù)時使用漢明窗與26個三角濾波器,采用12階MFCC.

        2.2 實驗分析

        一段在辦公環(huán)境下實時采集的包含語音"學(xué)習(xí)手語動作"與敲打聲的原始音頻信號如圖1所示,紅色標(biāo)記線為有效語音片段,而藍色標(biāo)記線為敲打噪聲信號.圖中可以明顯看出,在信噪比較高的情況下,短時過平均過零率對摩擦音節(jié)幀敏感,而對于弱摩擦如"語""動"不敏感,但對于敲打聲卻能夠有效過濾.相比于短時對數(shù)能量,MFCC的L2范數(shù)在同等條件下,后者在有聲段具有較高的增益效果,而在靜音段波動較為平穩(wěn).

        如圖2所示,對該信號加入SNR=5 dB的高斯白噪聲,比較了圖1中帶噪語音信號的短時對數(shù)能量特征曲線、短時過零特征曲線、MFCC的L2范數(shù)特征曲線.可以看出,在信噪比較低的情況下,從特征曲線的波動程度可以看出,對于短時平均過零率,反而能夠更有效地檢測出濁音幀,但過濾噪聲幀的能力卻被削弱了,這種現(xiàn)象是由于高斯白噪聲存在更多的高頻成分,而由聲帶發(fā)出的語音在濁音段具有更低的頻率;短時對數(shù)能量與MFCC的L2范數(shù)依舊保持原有的特性.

        圖1 在辦公環(huán)境下實時采集的包含語音"學(xué)習(xí)手語動作"與敲打聲的原始音頻信號

        圖2 短時對數(shù)能量特征曲線、短時過零特征曲線、MFCC的L2范數(shù)特征曲線

        結(jié)合圖1與圖2的分析,只要是有聲段,MFCC的L2范數(shù)都能夠很好地檢測出來,但是否是有效語音,可以結(jié)合短時平均過零率作出進一步的判斷.因此,結(jié)合MFCC的L2范數(shù)對聲音的敏感度與短時過零率對語音幀的甄別能力,這種策略可有效地降低誤判率,從而提升系統(tǒng)性能.

        為比較算法之間的性能,在不同樣本和信噪比條件下,對傳統(tǒng)雙門限算法、常規(guī)倒譜距離檢測算法與本文提出的檢測算法做大量仿真實驗,算法準(zhǔn)確率以截取到的完整語音信號文件數(shù)為評判標(biāo)準(zhǔn),即:正確截取率 = 完整語音信號文件數(shù)/人工標(biāo)定有效語音段總數(shù).

        如表1所示,傳統(tǒng)雙門限算法在信噪比較低的情況下已經(jīng)無法正常工作,雖然倒譜距離相比于雙門限算法在性能方面有一定的提升,但依舊無法滿足實際應(yīng)用的需求.而本文提出的算法,相比于前兩種算法在準(zhǔn)確率上有了較大的改善.

        表1 不同噪聲環(huán)境不同信噪比下語音信號截取準(zhǔn)確率比較(%)

        3 結(jié)語

        在現(xiàn)實環(huán)境中,噪聲變化多樣,采用單一特征很難對實時變化的信號做出準(zhǔn)確的判斷,而本文通過觀察實時信號中各個特征之間的變化規(guī)律,并結(jié)合不同特征的優(yōu)勢對傳統(tǒng)算法進行改進.實驗結(jié)果表明,該方法能夠有效避免環(huán)境中存在的如碰撞、敲打等噪聲的影響,并且在低信噪比的條件下準(zhǔn)確率有較大的提升,在信噪比較高的諸如辦公室、客廳、臥室等環(huán)境下進行實時的語音截取均能達到良好的效果.

        實驗過程中觀察到另一個有趣的現(xiàn)象是:當(dāng)參考噪聲緩存不斷更新時,MFCC的L2范數(shù)在語音結(jié)束后將在一段時間內(nèi)持續(xù)在較低的水平,之后才回升到噪聲的相對平穩(wěn)狀態(tài)區(qū)間.在后端點的后處理中,利用這個特征可以用于改善后端點判決的常定時方案.

        [1]JUANG C F,CHENG C N,CHEN T M.Speech detection in noisy environments by wavelet energy-based recurrent neural fuzzy network[J].Expert Systems with Applications,2009(1):321-332.

        [2]WU J,ZHANG X L.Efficient multiple kernel support vector machine based voice activity detection[J].IEEE Signal Processing Letters,2011(8):466-469.

        [3]WANG L,LI C R.An improved speech endpoint detection method based on adaptive band-paritition spectral entropy[J].Computer Simulation,2010(27):373-375.

        [4]LU Y,ZHOU N,XIAO K,et al.Improved speech endpoint detection algorithm in strong noise environment[J].Journal of Computer Applications,2014(5):40.

        [5]LI X,LI G,LI X.Improved voice activity detection based on iterative spectral subtraction and double thresholds for CVR[C].Australia:Workshop on Power Electronics and Intelligent Transportation System,2008:153-156.

        [6]WANG H Z,XU Y C,LI M J.Voice activity detection algorithm based on Mel frequency cepstrum coefficient(MFCC)similarity[J].Journal of Jilin University(Engineering and Technology Edition),2012(5):1331-1335.

        [7]王智國.嵌入式人機語音交互系統(tǒng)關(guān)鍵技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2014.

        [8]陳振鋒,吳蔚瀾,劉加,等.基于 Mel 倒譜特征順序統(tǒng)計濾波的語音端點檢測算法[J].中國科學(xué)院大學(xué)學(xué)報,2014(4):524-529.

        [9]周明忠,吉立新.基于平均幅度和加權(quán)過零率的VAD算法及其FPGA實現(xiàn)[J].信息工程大學(xué)學(xué)報,2010(6):713-718.

        [10]薛勝堯.基于改進型雙門限語音端點檢測算法的研究[J].電子設(shè)計工程,2015(4):78-81.

        Application of speech endpoint detection in real-time voice interception

        Hong Yixin, Zhang Haochuan, Yu Rong, Wu Zheshun
        (Automation School of Guangdong University of Technology, Guangzhou 510006, China)

        The speech endpoint detection plays an important role in speech recognition system. It is difficult to intercept the complete speech signal in real-time environment in noisy environment. This paper presents a real-time speech endpoint detection method. Firstly extracts the short-term average zero-crossing rate and Mel frequency cepstrum coefficient(MFCC)of each frame signal. Then, MFCC of the headmost N-frame background noise normalizes the current frame, a feature vector whose L2 norm as another feature. Finally, the effective speech signal was intercepted according to the multi-feature analysis. The experimental results show that the method has higher accuracy in intercepting the complete speech signal in the variable noise environment.

        speech endpoint detection; Mel frequency cepstrum coefficient; short-term average zero-crossing rate; multi-feature

        國家自然科學(xué)基金;項目編號:61422201.

        洪奕鑫(1992- ),男,廣東潮州人,碩士研究生;研究方向:嵌入式人工智能.

        猜你喜歡
        范數(shù)端點信噪比
        非特征端點條件下PM函數(shù)的迭代根
        基于深度學(xué)習(xí)的無人機數(shù)據(jù)鏈信噪比估計算法
        不等式求解過程中端點的確定
        低信噪比下LFMCW信號調(diào)頻參數(shù)估計
        電子測試(2018年11期)2018-06-26 05:56:02
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
        矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
        參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點估計
        基丁能雖匹配延拓法LMD端點效應(yīng)處理
        保持信噪比的相位分解反褶積方法研究
        男女性杂交内射女bbwxz| 中文字幕人妻丝袜成熟乱| 日本无吗一区二区视频| 中文字幕av长濑麻美| 亚洲国产成人av在线观看| 人人妻人人玩人人澡人人爽 | 久久精品国产亚洲AV古装片| 国产诱惑人的视频在线观看| 亚洲av无码专区国产不卡顿| 精品人妻人人做人人爽夜夜爽| 国内久久婷婷精品人双人| 日本精品啪啪一区二区| 亚洲最大成人综合网720p| 国産精品久久久久久久| 国产高清吃奶成免费视频网站| 国产av大片久久中文字幕| 日韩综合无码一区二区 | 国产三级视频一区二区| 蜜桃视频国产一区二区| 丰满人妻熟妇乱又伦精品软件 | 国产狂喷水潮免费网站www| 久久久精品人妻久久影视| 欧美三级超在线视频| 一道本加勒比在线观看| 97人伦影院a级毛片| 99久久国产露脸精品竹菊传媒| 国产精品不卡无码AV在线播放| 东京热加勒比久久精品| 国产乱国产乱老熟300部视频| 色yeye免费视频免费看| 久久综合加勒比东京热| 午夜爽爽爽男女免费观看影院| 国产精品无套内射迪丽热巴| 亚洲AV专区一专区二专区三| 加勒比精品视频在线播放| 国产精品成人久久电影| 国产精品女同一区二区久久| 女主播啪啪大秀免费观看| 欧美成人猛交69| 欧美黄色免费看| 久久久亚洲一区二区三区|