亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征流融合的帶噪語音檢測算法

        2020-05-11 03:01:46龍華楊明亮邵玉斌
        通信學(xué)報(bào) 2020年4期
        關(guān)鍵詞:信噪比音頻語音

        龍華,楊明亮,邵玉斌

        (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650031)

        1 引言

        語音檢測就是從帶有背景噪聲的音頻中準(zhǔn)確定位出語音的開始點(diǎn)和結(jié)束點(diǎn),去除靜音和純?cè)肼暡糠?,提高語音信號(hào)的有效利用率,不同的應(yīng)用場景對(duì)語音檢測的要求有所不同。例如在語音通話系統(tǒng)中,為了提高語音分組轉(zhuǎn)發(fā)的有效性(節(jié)約話路資源)與通話用戶的舒適性(語句完整),從干擾環(huán)境下準(zhǔn)確檢測出語音段(即具有完整含義的句子,由若干短時(shí)語音幀組成)的起始位置且保證語音段不被檢測割裂的語音檢測技術(shù)就顯得尤其重要,這是有別于語音檢測中的關(guān)鍵詞檢測、詞中的音節(jié)起始檢測(英文多為多音節(jié)詞)及語音特征提取前端的語音活動(dòng)檢測(VAD,voice activity detection)等應(yīng)用的。語音特征提取前端常使用的檢測方法有雙門限法[1]、譜熵法[2]等,其目的都是去除音頻段中的靜音段、純背景噪聲段以及表現(xiàn)為隨機(jī)噪聲特性的清音部分,進(jìn)而獲得音頻信號(hào)中的濁音信號(hào),而語音通話系統(tǒng)中完整語句的所有信息都是需要保留的。再者,語音通話系統(tǒng)中完整語句的檢測對(duì)語音段中的加性噪聲抑制處理(如譜減法[3]等)也是有利的(完整語句中保留著原始的噪聲幀,便于信噪比估計(jì))。

        當(dāng)前的語音檢測可大致劃分為基于閾值、基于分類器和基于模型的VAD。基于閾值的VAD 主要包括雙門限法、譜熵法等,通過提取語音特征(短時(shí)能量、過零率、譜熵等)并設(shè)定判決門限,對(duì)靜音段、清音濁音具有較好的效果,但在噪聲較大的環(huán)境下則表現(xiàn)得無能為力?;诜诸惼鞯腣AD 則有基于網(wǎng)絡(luò)框架的語音檢測方法[4-5]及利用指數(shù)核函數(shù)構(gòu)建語音檢測模型[6],將噪聲和語音的幀特征作為分類數(shù)據(jù)進(jìn)行目標(biāo)訓(xùn)練和測試,在語音檢測時(shí),從帶噪音頻中檢測出的語音丟掉了原始語句中應(yīng)有的短時(shí)字間隔,嚴(yán)重降低了聽眾的舒適度。基于模型的VAD 主要包括統(tǒng)計(jì)模型和算法模型?;诮y(tǒng)計(jì)模型的語音檢測包括文獻(xiàn)[7],以及在統(tǒng)計(jì)基礎(chǔ)上構(gòu)建諧波加噪聲模型與最大后驗(yàn)概率相結(jié)合的語音檢測模型[8]。算法模型則包括利用語音諧波檢測技術(shù)用于語音檢測[9],同基于閾值的VAD 一樣,在面對(duì)復(fù)雜環(huán)境下,其檢測性能也表現(xiàn)得不太好。

        Shamma 等[10]分析并指出,語音流的形成主要取決于編碼聲源各種特征響應(yīng)之間的時(shí)間一致性,即多條相干的特征流(一系列連貫實(shí)體/聲音的內(nèi)部特征,流強(qiáng)調(diào)了一個(gè)事實(shí),聲音特征同聲音信號(hào)一樣是隨著時(shí)間而展開的。同一段語音的不同時(shí)刻所對(duì)應(yīng)的同一特征在特性上是具有差異的,如聲音的振幅是動(dòng)態(tài)變化的,在數(shù)學(xué)上則表現(xiàn)為不同的數(shù)值序列即特征流)構(gòu)成了一條與其他源非相干特征分離的流,這也是多通道語音可以利用不同通道之間的差分信息進(jìn)行語音檢測[11]而單通道行不通的原因。Teki 等[12]指出人類聽覺系統(tǒng)對(duì)某些特征有顯著敏感,這些特征是根據(jù)混合聲音中小部分音頻元素的時(shí)間重合而調(diào)整的,即當(dāng)前所熟知的語音特征并不能完全表征語音的全部獨(dú)特信息,這也是網(wǎng)絡(luò)模型對(duì)反映語音特征的獨(dú)特之處。

        為了進(jìn)一步提高語音通話中語音段起始檢測的準(zhǔn)確性以及避免語音段被檢測割裂等問題,本文提出了基于特征流融合的帶噪語音檢測算法。利用神經(jīng)網(wǎng)絡(luò)的非線性擬合能力構(gòu)建語音譜圖特征與語音之間的映射關(guān)系,實(shí)現(xiàn)對(duì)語音的檢測[13]并取得了一定的效果,而語音統(tǒng)計(jì)特征在工程中的成功應(yīng)用已證實(shí)其表征語音信號(hào)的有效性,時(shí)域信號(hào)更是語音信號(hào)最直觀的反映形式。由于利用單一特征進(jìn)行語音檢測性能不佳,因此首先對(duì)待檢測語音提取時(shí)域特征流、譜圖特征流及統(tǒng)計(jì)特征流并分別對(duì)帶噪音頻中的語音段進(jìn)行估測后,然后對(duì)各個(gè)特征流估測得到的語音預(yù)測概率進(jìn)行加權(quán)融合。過去語音檢測從幀層級(jí)出發(fā),忽略了語音連貫性特征,而高階隱馬爾可夫模型可以充分考慮過去的狀態(tài)信息[14],對(duì)滑動(dòng)窗時(shí)長內(nèi)的語音起著平滑的作用,保證了檢測后語音段保持原始語句的連續(xù)性。

        2 基于特征流的語音估測

        2.1 時(shí)域特征流的語音估測

        現(xiàn)實(shí)采集到的帶噪語音可定義為

        其中,y(i)為觀測到的音頻信號(hào),s(i)為純語音信號(hào),n(i)為噪聲信號(hào),i為數(shù)據(jù)點(diǎn)號(hào)。每一幀信號(hào)的語音信號(hào)可分為以下2 種狀態(tài)

        其中,下標(biāo)n表示第n幀信號(hào),每一幀信號(hào)中包含M個(gè)數(shù)據(jù)點(diǎn),即。這里假設(shè)噪聲nn的均值為0,對(duì)角協(xié)方差矩陣為。語音信號(hào)可以看作具有隨機(jī)、周期和擬周期性質(zhì)的非線性時(shí)間序列,那么依據(jù)諧波理論可將語音信號(hào)分解為k階諧波[15],即

        其中,sn,m表示第n幀第m個(gè)元素值,kn表示諧波階數(shù),αi,n與βi,n表示第i階諧波的線性權(quán)值,為基頻(弧度),fs為音頻信號(hào)采樣率。進(jìn)一步地,將語音信號(hào)用矩陣向量表示,并引入一個(gè)隱變量hn用于表示音頻幀信號(hào)中語音是否存在(其中,1 為語音,0 為非語音),可得

        其中,

        其中,N為總幀數(shù)目。等式右邊分子的第一項(xiàng)可由拉普拉斯近似算法表示,第二項(xiàng)可寫成

        語音信號(hào)狀態(tài)具有連貫性,帶噪音頻信號(hào)中的語音狀態(tài)應(yīng)滿足隱馬爾可夫模型,為了便于計(jì)算,這里假設(shè)時(shí)序幀的語音狀態(tài)滿足一階隱馬爾可夫,即。第n幀音頻信號(hào)的狀態(tài)空間可進(jìn)一步表示為

        語音幀推斷后一幀為語音幀的條件概率為

        諧波階數(shù)和基音頻率無直接關(guān)系,進(jìn)而可對(duì)等式右邊第一部分進(jìn)行條件聯(lián)合分布分解

        當(dāng)前一幀為非語音幀時(shí),后一幀為語音幀的條件概率為

        當(dāng)前一幀為非語音幀時(shí),選擇離當(dāng)前幀n最相近的過去語音幀c作為推斷,根據(jù)文獻(xiàn)[16]的式(18)對(duì)式(12)等號(hào)右邊第一部分做條件聯(lián)合分布分解,即

        聯(lián)合式(9)~式(11)可得

        根據(jù)文獻(xiàn)[16]的式(23)得到狀態(tài)空間的后驗(yàn)概率為

        由此,按照文獻(xiàn)[16]中的策略,根據(jù)式(10)、式(12)、式(14)和式(15)對(duì)狀態(tài)空間做出概率預(yù)測,依據(jù)式(5)~式(8)和式(16)計(jì)算狀態(tài)空間的后驗(yàn)概率,并聯(lián)合文獻(xiàn)[15-16]的快速基頻估計(jì)和諧波階數(shù)估計(jì)對(duì)進(jìn)行迭代更新,其約束條件為

        2.2 譜圖特征流的語音估測

        因?yàn)槎虝r(shí)功率譜是對(duì)按照時(shí)間序列展開的幀信號(hào)進(jìn)行傅里葉變換得到的,所以譜圖特征也是以“流”的形式出現(xiàn)的。時(shí)頻譜圖的頻率分辨率為線性,而人類聽覺系統(tǒng)對(duì)低頻十分敏感,對(duì)高頻就比較遲鈍,為了解決頻率分辨率的問題,本文利用64 個(gè)Gammatone 濾波器組提取Cochleagram 特征[17-18],并利用窗長為32 ms、幀位移為16 ms 的漢明窗口對(duì)其輸出進(jìn)行了瞬態(tài)積分。Gammatone 濾波器的脈沖響應(yīng)h(t)為其中,g為輸出增益;t為時(shí)間;a為濾波器階數(shù);b為矩形帶寬,它隨中心頻率f的增大而增大。

        梅爾頻譜倒譜系數(shù)(MFCC,Mel frequency cepstrum coefficient)特征是一種基于人耳對(duì)等距的音高變化的感官判斷而定的非線性頻率刻度,現(xiàn)已應(yīng)用于語音識(shí)別、音樂檢索等多個(gè)方面。Gabor 濾波器是一個(gè)頻率和方向表達(dá)同人類視覺系統(tǒng)類似、用于邊緣提取的線性濾波器,在圖像的紋理表達(dá)和分離方面具有優(yōu)異的性能。故利用Gabor 濾波器對(duì)MFCC 的紋理特征進(jìn)行提?。ㄔ斠娢墨I(xiàn)[13])。

        長時(shí)信號(hào)變化特征(LTSV,long term signal variability)測量方法[19]在多個(gè)語音檢測應(yīng)用研究中證明,其在平穩(wěn)噪聲環(huán)境下具有較好的穩(wěn)健性。首先,計(jì)算第n幀短時(shí)能量譜為

        其中,X(n,wk)為第n幀信號(hào)yn在頻率wk處的短時(shí)傅里葉變換,w(?)為短時(shí)窗,M為幀長。根據(jù)文獻(xiàn)[19-20]對(duì)LTSV 的定義,對(duì)每一幀的每個(gè)頻率點(diǎn)進(jìn)行熵的計(jì)算,有

        其中,m≥R,R表示長時(shí)滑動(dòng)窗包括的幀數(shù)目,這種滑動(dòng)處理通過計(jì)算第m幀K個(gè)頻點(diǎn)下熵的方程Lx(m),實(shí)現(xiàn)了對(duì)語音的長時(shí)分析。

        語音具有一定的周期性,通過利用諧波理論估算帶噪音頻信號(hào)的基音周期,然后根據(jù)自相關(guān)函數(shù)計(jì)算相關(guān)圖,為了克服吉布斯現(xiàn)象,此處在進(jìn)行自相關(guān)函數(shù)計(jì)算時(shí)需要對(duì)幀信號(hào)進(jìn)行加窗和預(yù)加重處理,其中窗長為32 ms,幀移為16 ms。隨后,每次都推導(dǎo)出一個(gè)語音測量值,即信號(hào)能量歸一化估計(jì)基音周期時(shí)的自相關(guān)值,為了考慮前后幀之間的相關(guān)性,對(duì)一維預(yù)測概率做了前后擴(kuò)張,最終取五階自相關(guān)值。

        2.3 統(tǒng)計(jì)特征流的語音估測

        語音發(fā)音通常是由清音和濁音交叉構(gòu)成的,而非語音卻不滿足這樣的構(gòu)造特點(diǎn),清音的過零率遠(yuǎn)高于濁音,故語音過零率的變化一般要比非語音激烈。高過零率比率(HZCRR,high zero crossing rate ratio)用于描述一段音頻段過零率變化的劇烈程度,計(jì)算式為[21]

        其中,N為幀數(shù)目,n為幀索引,sgn 為符號(hào)函數(shù),ZCR(n)為第n幀的過零率,為ZCR 均值。為了避免一些非語音段能量較低,但過零率比率高于所設(shè)閾值0.08 的誤判,本文加入式(23)所示的短時(shí)能量特征共同進(jìn)行判斷。

        其中,符號(hào)i為幀內(nèi)音頻數(shù)據(jù)點(diǎn)索引,M為幀長,yn為第n幀歸一化信號(hào)。此處閾值設(shè)置為0.05。

        3 特征流的融合

        基于特征流融合的帶噪語音估測流程如圖1所示。

        圖1 基于特征流融合的帶噪語音估測流程

        為了減少估測語音概率的復(fù)雜性,在2.1 節(jié)整個(gè)初步估計(jì)中假設(shè)狀態(tài)空間為一階隱馬爾可夫模型,只考慮前一幀的影響,忽略語音長時(shí)幀的相關(guān)信息,而事實(shí)上,可將基于特征流對(duì)每幀音頻預(yù)測的語音概率值序列看作離散平穩(wěn)有記憶信源X:{a1,a2,…,ar},在任何時(shí)刻tm+1,隨機(jī)變量Xm+1所發(fā)符號(hào)aim+1通過其前m個(gè)符號(hào)(ai1,ai2,…,aim)進(jìn)而與更前面的符號(hào)發(fā)生聯(lián)系[22],即aim+1只與它前面的m個(gè)符號(hào)相關(guān),與更前面的符號(hào)無關(guān)。假設(shè)每一個(gè)短時(shí)狀態(tài)由m個(gè)信源構(gòu)成,而這m個(gè)符號(hào)取遍信源X的符號(hào)集,m-M信源共有rm種不同的消息,令Si為(i=1,2,…,rm)某一狀態(tài),則有

        對(duì)應(yīng)于帶噪音頻幀的語音檢測只存在2 種狀態(tài),即信源X的符號(hào)集X:{0,1},i1,i2,…,im為符號(hào)狀態(tài)序列號(hào)。因?yàn)楸疚姆謳瑤L為32 ms,幀移為16 ms,又考慮到正常語速7 個(gè)音節(jié)需要3 s,所以此處m=39,即39 階馬爾可夫信源,由式(24)即有

        符號(hào)序列號(hào)為1 時(shí)對(duì)應(yīng)符號(hào)集中的符號(hào)0,符號(hào)序列號(hào)為0 時(shí)對(duì)應(yīng)符號(hào)集中的符號(hào)1,進(jìn)一步即有

        將預(yù)測語音概率值大于0.5 當(dāng)作狀態(tài)1,其余的為狀態(tài)0,為了對(duì)語音概率曲線做平滑處理,本文統(tǒng)計(jì)了每一個(gè)短時(shí)狀態(tài)中0 與1 的個(gè)數(shù),令1 的個(gè)數(shù)大于20 且小于35(設(shè)定個(gè)的判決閾值)的短時(shí)狀態(tài)Si內(nèi)的符號(hào)狀態(tài)值均為1,其他的短時(shí)狀態(tài)符號(hào)值均為0。為了保證最終重構(gòu)語音舒適度和可理解性,短時(shí)狀態(tài)時(shí)序步長取11 幀。

        令時(shí)域特征流的輸出概率為prob1,經(jīng)過短時(shí)狀態(tài)處理的時(shí)域特征流的輸出概率為序列),譜圖特征流輸出的概率為prob2,統(tǒng)計(jì)特征流的輸出概率為prob3。為了突出的語音部分,即有

        將p1與譜圖特征流的語音概率融合并利用統(tǒng)計(jì)特征流prob3突出譜圖特征流prob2的語音部分,與此同時(shí)將prob1與prob3加權(quán)融合,則有

        最后,將兩兩特征流融合結(jié)果再次加權(quán)融合,有

        其中,q1、q2、q3分別為不同特征流語音估測的權(quán)重系數(shù)。根據(jù)人類聽覺系統(tǒng)自身的特殊特性,以及對(duì)某些特征更加敏感的理論[13],對(duì)權(quán)值進(jìn)行猜測和檢驗(yàn)(如同深度學(xué)習(xí)模型中卷積核大小的選擇一樣)。經(jīng)實(shí)驗(yàn)測試推斷,譜特征流包含有更多區(qū)分語音和噪聲的有用信息,因此取q1=0.35,q2=0.40,q3=0.35。最后,利用隱馬爾可夫短期狀態(tài)對(duì)語音概率曲線進(jìn)行平滑處理,得到最終的語音估測0-1折線p5(其中,1 為語音,0 為非語音)。

        4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        4.1 實(shí)驗(yàn)設(shè)置

        1)數(shù)據(jù)準(zhǔn)備

        實(shí)驗(yàn)測試檢驗(yàn)中,本文采用的語音庫為TIMIT語音庫、THCHS30 語音庫、2018 方言種類識(shí)別AI挑戰(zhàn)賽(DRC,dialect recognition contest)語音庫3種,語音為采樣率fs=16 000 Hz、單通道的wav 音頻文件,每句語音時(shí)長在4~7 s 左右。語音訓(xùn)練數(shù)據(jù)集包含TIMIT 語音庫中美國8 個(gè)地區(qū)462 個(gè)說話人語音,每人10 句英語語音;THCHS30 語音庫包含11 個(gè)來自中國各地的說話人語音,每人20 句普通話;DRC 語音庫包含中國10 個(gè)方言地區(qū)的300 個(gè)說話人,每人10 句中國方言。噪聲訓(xùn)練數(shù)據(jù)集采用自建噪聲庫(SBNL,self-built noise library),其中包括動(dòng)物鳴叫、公共場所噪聲、戶外活動(dòng)噪聲、室內(nèi)活動(dòng)噪聲、工廠噪聲、音樂、自然音效、交通噪聲共8 類噪聲類型,每一類噪聲又包含10 段不同的噪聲段。從語音訓(xùn)練數(shù)據(jù)集和噪聲訓(xùn)練數(shù)據(jù)集中隨機(jī)選取一種語音和噪聲,隨機(jī)選擇SNR=[-5,0,5,10,15,20]dB 中的信噪比進(jìn)行帶噪語音合成,建立多條件訓(xùn)練集用于訓(xùn)練基于譜圖特征流的語音概率預(yù)測深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)模型。

        實(shí)驗(yàn)測試語音數(shù)據(jù)包含TIMIT 語音庫中168 個(gè)說話人(女性52 人,男性114 人,每人10 句)、THCHS30 語音庫中20 個(gè)說話人(女性18 人,男性2 人,每人10 句)、DRC 語音庫中50 個(gè)說話人(女性30 人,男性20 人,每人10 句)。為了更加貼近真實(shí)環(huán)境,在原始語音數(shù)據(jù)基礎(chǔ)上的語音段前后隨機(jī)補(bǔ)充2~4 s 的靜音段,以便與噪聲混合成的帶噪音頻更符合現(xiàn)實(shí)情況,噪聲庫采用Nonspeech公開噪聲庫,合成語音的信噪比等級(jí)SNR=[-5,0,5,10]dB。測試語音庫中的語音段與噪聲庫中隨機(jī)選取的噪聲依次按照-5 dB、0 dB、5 dB、10 dB 這4個(gè)信噪比等級(jí)合成4 個(gè)不同信噪比的測試數(shù)據(jù)庫。語音庫的分配設(shè)置如表1 所示。

        表1 語音庫的分配設(shè)置

        2)模型設(shè)置與訓(xùn)練

        基于譜圖特征流的語音估測部分,將提取的64維Cochleagram 特征、110 維Gabor 特征、5 維LTSV特征以及5 維基音周期自相關(guān)值構(gòu)建成184 維特征流,再將特征流送入3 層網(wǎng)絡(luò)[13]、節(jié)點(diǎn)數(shù)為184→64→64→1 的DNN 中進(jìn)行訓(xùn)練(迭代),得到一個(gè)譜圖特征流的語音概率預(yù)測模型。其余按照第3 節(jié)特征流融合策略進(jìn)行構(gòu)建系統(tǒng)。

        4.2 實(shí)驗(yàn)測試與分析

        為了分析不同程度噪聲對(duì)帶噪語音估測性能的影響,用4 組不同信噪等級(jí)的音頻測試庫對(duì)不同語音檢測方法進(jìn)行性能測試。以基于貝葉斯特征流(BFS,Bayesian feature stream)[16]和光譜特征流(SCS,spectral characteristic stream)[20]的帶噪音頻語音概率估測作為本文特征流融合(FSF,feature stream fusion)的基線模型。因?yàn)镠ZCRR 在干凈環(huán)境下能夠準(zhǔn)確地對(duì)語音段進(jìn)行估測,故以2.3 節(jié)的統(tǒng)計(jì)特征流作為原始干凈環(huán)境的語音檢測方法,其語音檢測結(jié)果作為音頻段語音狀態(tài)的標(biāo)準(zhǔn)標(biāo)注。以誤檢率(Pf,false-alarm probability)、漏檢率(Pm,miss probability)、正確率(Pc,correct probability)作為性能評(píng)價(jià)指標(biāo)(其中,Pf 和Pm 越小越好,Pc越大越好),則有

        其中,T為總音頻長度,T誤檢為誤檢為語音的音頻長度,T漏檢為漏檢語音的音頻長度。不同信噪比條件下的語音估測誤檢率、漏檢率和正確率分別如表2~表4 所示。

        由表2~表4 可知,對(duì)于4 個(gè)信噪比等級(jí)下的帶噪音頻段語音檢測性能,除SNR=5 dB 和SNR=10 dB條件下BFS 的Pf 指標(biāo)略優(yōu)于本文所提的FSF 方法外,其余本文所提FSF 方法的性能指標(biāo)都顯著優(yōu)于對(duì)比實(shí)驗(yàn)?zāi)P?,根?jù)表1~表4 可得,不同方法的平均語音檢測性能如表5 所示。

        表2 不同信噪比條件下的語音估測誤檢率

        表3 不同信噪比條件下的語音估測漏檢率

        表4 不同信噪比條件下的語音估測正確率

        表5 不同方法的平均語音檢測性能

        對(duì)表5 分析可知,相對(duì)于BFS,F(xiàn)SF 的Pf、Pm、Pc 評(píng)價(jià)指標(biāo)分別提高了1.023%、71.73%、21.26%;相對(duì)于SCS,F(xiàn)SF 的Pf、Pm、Pc 評(píng)價(jià)指標(biāo)分別提高了8.10%、53.97%、11.01%。

        為了更直觀地展示不同語音檢測方法在不同信噪比條件下的檢測性能,從4 個(gè)不同信噪比等級(jí)測試庫中挑選不同音頻進(jìn)行性能可視化展示,分別如圖2~圖5 所示。

        由圖2 可知,當(dāng)SNR=-5dB 時(shí),語音完全被噪聲所覆蓋掉,無法從時(shí)頻圖中觀察出語音信號(hào)的清晰脈絡(luò)。在此條件下,BFS、SCS、FSF 都出現(xiàn)了不同程度的誤檢,其中SCS 的誤檢率最大,其次是SCS,BFS 的誤檢最少。漏檢方面,F(xiàn)SF 的漏檢最多,與總體測試結(jié)果中FSF 的漏檢率最低的結(jié)論有所差異,但FSF 的檢測正確率大于BFS 和SCS 的檢測正確率。由于噪聲環(huán)境的復(fù)雜性,出現(xiàn)了使FSF對(duì)個(gè)別音頻段的語音檢測性能低于BFS 或SCS 的情況。第1 節(jié)中已指出,對(duì)于語音通話中的語音檢測,除了要求準(zhǔn)確檢測出完整語句的起始位置外,還需要避免完整語句被檢測割裂的問題(保證聽者的舒適度),另一方面也是語音增強(qiáng)的需要。例如,圖2 中BFS 的語音檢測結(jié)果以單個(gè)字或詞的形式出現(xiàn),這既不是語音通話中所期待的,也不利于檢測語音段后續(xù)的語音增強(qiáng)(非平穩(wěn)噪聲很難被準(zhǔn)確估計(jì))。對(duì)于SCS 語音檢測,其檢測結(jié)果大部分都是連貫的,但在大約t=14 s 處也出現(xiàn)了檢測波動(dòng)(導(dǎo)致音樂噪聲的產(chǎn)生),而FSF 由于進(jìn)行了高階隱馬爾可夫處理,保證了檢測出的語音段的連續(xù)性。

        圖2 不同語音檢測方法在SNR=-5 dB 時(shí)的檢測性能

        將圖2 與圖3 對(duì)比可知,在信噪比提高的條件下,BFS、SCS、FSF 的檢測性能都得到提高,特別是FSF 的誤檢和漏檢大幅度降低,但BFS 和SCS仍然出現(xiàn)較多的誤檢。此外,在信噪比提高的情況下,SCS 檢測的語音段連貫性得到較大改善(t=14 s處),但對(duì)于BFS 檢測結(jié)果改善并不明顯。

        圖3 不同語音檢測方法在SNR=0 dB 時(shí)的檢測性能

        圖4 不同語音檢測方法在SNR=5 dB 時(shí)的檢測性能

        圖4 和圖5 展示了BFS、SCS、FSF 在噪聲干擾環(huán)境SNR=5 dB 和SNR=10 dB 時(shí)的語音檢測性能。從圖4 可知,BFS、SCS 和FSF 仍然存在誤檢的情況,BFS 和SCS 的語音檢測中還存在漏檢的情況,而FSF 不存在漏檢。圖4 與圖2、圖3 所展示的結(jié)果一樣,BFS 和SCS 的語音檢測由于從幀層面進(jìn)行語音檢測判定,并未進(jìn)行短時(shí)狀態(tài)考慮,在語音檢測時(shí)對(duì)語音段內(nèi)的字間間隔進(jìn)行了移除,使檢測出的語音段連貫性受到破壞,嚴(yán)重影響著聽者的舒適度,也制約著檢測語音段后期的語音增強(qiáng)性能。

        圖5 不同語音檢測方法在SNR=10 dB 時(shí)的檢測性能

        將圖4 與圖5 對(duì)比可知,當(dāng)信噪比提高時(shí),在圖4 中被誤檢或漏檢的部分也得以被正確檢測出,但對(duì)于某些部分依舊無法正確檢出,特別是BFS 和SCS 的語音檢測方法。將圖5 進(jìn)一步與圖2、圖3 對(duì)比可知,在一定的信噪比范圍內(nèi),影響語音檢測性能的并非只有信噪比指標(biāo),噪聲類型也是干擾語音檢測性能的重要因素。從圖5 語音檢測的可視化結(jié)果中可知,此時(shí)FSF 可在盡可能去除靜音段和純?cè)肼暥蔚耐瑫r(shí),避免完整語音段被檢測割裂的問題。

        5 結(jié)束語

        為了進(jìn)一步提高語音通話中語音段起始檢測的準(zhǔn)確性及避免語音段被檢測割裂等問題,本文提出了基于特征流融合的帶噪語音檢測算法。相比于基于單純的時(shí)域特征流或單純的譜圖特征流(DNN模型訓(xùn)練檢測),所提算法在不同信噪比情況下的帶噪語音檢測性能(誤檢率、漏檢率和檢測正確率)都有了較大的提高。這主要?dú)w功于所提算法將多種特征流進(jìn)行了融合,相對(duì)于利用單特征(如HZCRR統(tǒng)計(jì)特征等)進(jìn)行語音檢測方法,增大了語音檢測的運(yùn)算力。因?yàn)槔昧烁唠A隱馬爾可夫模型的多狀態(tài)考慮能力即對(duì)語音估測結(jié)果進(jìn)行了短時(shí)處理,使經(jīng)過FSF語音檢測方法的語音段保持原始的連貫性(即具有完整含義的句子)。進(jìn)一步提高語音檢測抗噪性能仍是未來的目標(biāo)(同等數(shù)值漏檢率比誤檢率更具破壞性,少量的誤檢率可以通過語音增強(qiáng)來進(jìn)一步消除,而漏檢率會(huì)破壞原始語句連續(xù)性結(jié)構(gòu))。影響語音檢測準(zhǔn)確性的因素有多種,其中包括噪聲類型、噪聲強(qiáng)度、個(gè)人習(xí)慣等,后期可發(fā)展自適應(yīng)隱馬爾可夫或使用深度學(xué)習(xí)模型來代替隱馬爾可夫的作用,進(jìn)而提高檢測語音段的完整性和連貫性,通過構(gòu)建多條件的訓(xùn)練數(shù)據(jù)集提高語音檢測模型的穩(wěn)健性。

        猜你喜歡
        信噪比音頻語音
        基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
        電子測試(2018年11期)2018-06-26 05:56:02
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        精品一区二区三区人妻久久| 国产精品一区二区久久不卡| 久久这里只精品国产免费10| 69天堂国产在线精品观看| 国产一级黄片久久免费看| 男女边摸边吃奶边做视频韩国| 中国丰满人妻videoshd| 极品熟妇大蝴蝶20p| 国产精品自拍首页在线观看| 亚洲丰满熟女一区二亚洲亚洲| 日本真人做爰免费视频120秒| 亚洲色偷拍区另类无码专区| 亚洲国产成人Av毛片大全| 亚洲国产成人av毛片大全| 日本一道综合久久aⅴ免费| 久久午夜无码鲁丝片直播午夜精品 | 亚洲日本va午夜在线电影| 色播在线永久免费视频网站| 中文字幕日本av网站| 丰满人妻一区二区三区免费视频| 又硬又粗又大一区二区三区视频| 亚洲最稳定资源在线观看| 亚洲一品道一区二区三区| 99久久精品免费观看国产| 正在播放一区| 国产精品久久夜伦鲁鲁| 中文字幕亚洲精品久久| 国产成人久久精品激情| av狼人婷婷久久亚洲综合| 国产亚洲精品一区二区在线观看 | 粗壮挺进人妻水蜜桃成熟漫画| 女性自慰网站免费看ww| 老司机在线免费视频亚洲| 亚洲国产精品久久久久秋霞小说| 国产肉体ⅹxxx137大胆| 熟妇与小伙子露脸对白| 不卡av网站一区二区三区| 性欧美牲交xxxxx视频欧美| 成年奭片免费观看视频天天看| av网站免费观看入口| 热久久国产欧美一区二区精品|