亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)

        2018-03-02 09:23:30楊登舟夏善紅
        計(jì)算機(jī)工程 2018年2期
        關(guān)鍵詞:濁音清音音高

        楊登舟,劉 加,夏善紅

        (1.中國(guó)科學(xué)院電子學(xué)研究所,北京 100190; 2.中國(guó)科學(xué)院大學(xué),北京 100049;3.清華大學(xué) 電子工程系,北京 100084)

        0 概述

        隨著電子通信和計(jì)算機(jī)技術(shù)的快速發(fā)展,大量的語(yǔ)音數(shù)據(jù)被存儲(chǔ),如何快速地建立語(yǔ)音檢索是亟需解決的問(wèn)題。說(shuō)話人轉(zhuǎn)換檢測(cè)(Speaker Change Detection,SCD),也稱說(shuō)話人分割[1],是語(yǔ)音信號(hào)處理中的一項(xiàng)實(shí)用技術(shù),從一段語(yǔ)音中將不同說(shuō)話人說(shuō)話的時(shí)刻檢測(cè)出來(lái),將語(yǔ)音分割出滿足要求的片段,可以很方便地建立索引,為信息的進(jìn)一步處理提供便利[2-3]。

        語(yǔ)音切分類問(wèn)題可以抽象成模型判別問(wèn)題,用特定長(zhǎng)度的窗(定長(zhǎng)窗或者變長(zhǎng)窗)掃描整段語(yǔ)音,當(dāng)窗內(nèi)左右兩部分的語(yǔ)音之間的差異達(dá)到某個(gè)閾值,認(rèn)為在窗左半部分和右半部分發(fā)生了明顯的改變,有理由懷疑此處語(yǔ)音的聲源發(fā)生了變化[4]。在說(shuō)話人轉(zhuǎn)換檢測(cè)的研究中,窗左右兩側(cè)語(yǔ)音之間的差異度量方式主要有模型差異、參數(shù)差異以及模型和參數(shù)相結(jié)合[5-6]這三大類。在基于模型的方法中,從訓(xùn)練數(shù)據(jù)中挑選出不同的發(fā)聲源,訓(xùn)練出各自的模型,同時(shí)訓(xùn)練出所有聲源的全局模型,通過(guò)分析全局模型和個(gè)體模型的不同之處,得到模型間轉(zhuǎn)化關(guān)系或者找到可區(qū)分的模型差異,常用的模型包括通用背景模型(Universal Background Model,UBM)、樣本說(shuō)話人模型(Sample Speaker Model,SSM)、隱馬爾科夫模型(Hidden Markov Model,HMM)。基于參數(shù)的方法,使用較多的特征主要包括時(shí)域短時(shí)能量、過(guò)零率、頻域的子帶能量、倒譜特征、線性預(yù)測(cè)系數(shù)等。通常使用差異度量準(zhǔn)則有貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)、廣義似然比(Generalized Likelihood Ratio,GLR)、KL散度(Kullback-Leibler divergence)、歸一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)等。

        在說(shuō)話人識(shí)別問(wèn)題中,由于事先可以獲取訓(xùn)練數(shù)據(jù),可以事先訓(xùn)練出多個(gè)不同的說(shuō)話人模型,在判決階段只要將一段語(yǔ)音的特征和所有參考模型做比較,和哪一個(gè)更近就判別成哪個(gè),在閉集測(cè)試中,性能較好[7]。而說(shuō)話人轉(zhuǎn)換檢測(cè)比說(shuō)話人識(shí)別難度大,主要難點(diǎn)在于對(duì)一段語(yǔ)音做切分任務(wù),并不會(huì)提供該語(yǔ)音中所包含的說(shuō)話人的訓(xùn)練語(yǔ)料,因此不能準(zhǔn)確獲取到說(shuō)話人的模型,特別是在短時(shí)說(shuō)話人迅速轉(zhuǎn)變的對(duì)話口語(yǔ)語(yǔ)音中完成穩(wěn)定說(shuō)話人建模難度更大,需要挖掘短時(shí)說(shuō)話人差異區(qū)分性大、能全面描述說(shuō)話人發(fā)聲特性的特征。計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis,CASA)[8]根據(jù)聽(tīng)覺(jué)生理學(xué)和聽(tīng)覺(jué)心理學(xué)的研究成果,利用計(jì)算機(jī)模擬人耳耳蝸的聽(tīng)覺(jué)處理機(jī)制來(lái)處理接收到的語(yǔ)音信息,該理論能夠較好地解決諸如同信道語(yǔ)音分離問(wèn)題,充分利用語(yǔ)音的周期性和短時(shí)連續(xù)性2個(gè)重要的線索來(lái)區(qū)分不同的聲源。

        本文提出一種基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)方法,將語(yǔ)音分割成相鄰的若干語(yǔ)音子段,提取伽馬音能量倒譜系數(shù)特征,在貝葉斯信息準(zhǔn)則的判決下得到初始說(shuō)話人轉(zhuǎn)換點(diǎn),最后利用濁音的基頻特征對(duì)漏檢和錯(cuò)檢的轉(zhuǎn)換點(diǎn)進(jìn)行后處理,以達(dá)到較好的檢測(cè)結(jié)果。

        1 計(jì)算聽(tīng)覺(jué)場(chǎng)景分析

        人每天在各種復(fù)雜的聲學(xué)環(huán)境中傾聽(tīng)語(yǔ)音,提取需要的信息,可以從周圍嘈雜的多人說(shuō)話環(huán)境中鎖定自己感興趣的聲源對(duì)象,只要信噪比合適,人耳可以將目標(biāo)聲源的聲音從背景語(yǔ)音中完全分離出來(lái),并且做得非常出色,取決于人類具有聽(tīng)覺(jué)場(chǎng)景分析(Auditory Scene Analysis,ASA)[9]的能力。

        人耳的耳蝸基底膜就好像是一個(gè)初級(jí)的頻率分析器,可以將聲音中的各種頻率在基底膜上的位置進(jìn)行編碼。當(dāng)基底膜上下振動(dòng),其柯蒂氏器(Corti)也隨之產(chǎn)生相同的振動(dòng)模式,并促使毛細(xì)胞纖毛發(fā)生彎曲形變,毛細(xì)胞去極化并在其頂部產(chǎn)生耳蝸電位,該電位會(huì)引起毛細(xì)胞底部神經(jīng)纖維的應(yīng)激反應(yīng),釋放出化學(xué)物質(zhì),引導(dǎo)神經(jīng)末梢興奮,傳輸至中樞神經(jīng)。人耳除了具有頻率分析特性,對(duì)聲波強(qiáng)度的編碼也非常高效,通過(guò)神經(jīng)單元興奮后發(fā)放神經(jīng)沖動(dòng)的數(shù)量來(lái)確定強(qiáng)度。

        1.1 Gammatone濾波器組模型模擬耳蝸的頻率分析

        聽(tīng)覺(jué)場(chǎng)景分析中將原始語(yǔ)音信號(hào)拆分成多個(gè)子帶信號(hào)的過(guò)程是通過(guò)Gammatone濾波器組[10]來(lái)實(shí)現(xiàn)的。Gammatone濾波器組是由一系列不同帶寬不同中心頻率的帶通濾波器組成,Gammatone濾波器的沖激響應(yīng)為:

        gc(t)=

        (1)

        其中,τ是濾波器的階數(shù),φ是初始相位,B(fc)是濾波器組的帶寬,fc是中心頻率。當(dāng)τ=4時(shí)和人耳聽(tīng)覺(jué)濾波器非常吻合。濾波器的帶寬由中心頻率對(duì)應(yīng)的等價(jià)直角帶寬(Equivalent Rectangular Bandwidth,ERB)確定:

        ERB(f)=24.7×(4.37f/1 000+1)

        (2)

        B(f)=1.019×ERB(f)

        (3)

        線性頻率f和“ERB-rate”尺度頻率FERB的換算關(guān)系為:

        FERB(f)=21.4×lg(0.004 37f+1)

        (4)

        將線性頻率80 Hz~5 000 Hz轉(zhuǎn)化為“ERB-rate”尺度頻率,并在“ERB-rate”尺度下均勻取出128個(gè),生成子帶數(shù)C=128的Gammatone濾波器組。將原始語(yǔ)音信號(hào)s(t)通過(guò)濾波器組濾波,輸出C個(gè)子帶信號(hào)uc(t):

        uc(t)=s(t)×gc(t),c=1,2,…,C

        (5)

        1.2 毛細(xì)胞觸發(fā)模型模擬耳蝸的強(qiáng)度分析

        原始語(yǔ)音信號(hào)s(t)經(jīng)過(guò)Gammatone濾波器濾波后得到uc(t),c=1,2,…,C(為表述方便,下文將省略子帶下標(biāo)c,并不影響理解)。將u(t)經(jīng)過(guò)Meddis毛細(xì)胞模型[11],可以得到描述聽(tīng)覺(jué)神經(jīng)觸發(fā)概率的信號(hào)v(t)。毛細(xì)胞觸發(fā)概率的計(jì)算過(guò)程通過(guò)以下4個(gè)方程完成:

        (6)

        (7)

        (8)

        (9)

        在式(6)~式(9)中,g、r、l、h、A、B、x、y是模型常數(shù),q(t)、c(t)、w(t)是中間變量,在毛細(xì)胞傳導(dǎo)模型中有具體意義,聽(tīng)覺(jué)末梢發(fā)放概率v(t)=h·c(t)。

        2 區(qū)分性特征提取

        2.1 伽馬通能量倒譜系數(shù)

        在語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和語(yǔ)種識(shí)別中都可以見(jiàn)到梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)[12]發(fā)揮的重要作用。梅爾頻率倒譜系數(shù)是將語(yǔ)音幀的快速傅里葉變換(Fast Fourier Transformation,FFT)頻譜通過(guò)相互交疊且中心頻率沿梅爾頻率線性分布的24個(gè)三角濾波器組,對(duì)三角頻窗內(nèi)的能量計(jì)算對(duì)數(shù),對(duì)數(shù)譜計(jì)算離散余弦變換(Discrete Cosine Transform,DCT)得到梅爾頻率倒譜系數(shù)。伽馬通頻率倒譜系數(shù)[13]借鑒了梅爾頻率倒譜系數(shù)特征提取的原理。MFCC中對(duì)能量求對(duì)數(shù)得到倒譜,在GFCC中變成了計(jì)算響度壓縮,本文建立了一個(gè)介于GFCC和MFCC之間的特征,伽馬通能量倒譜系數(shù)(Gammatone Energy Cepstral Coefficients,GECC),它和GFCC的提取不同之處如圖1所示,GECC僅在于利用響度和能量的差異。

        圖1 特征提取流程

        對(duì)毛細(xì)胞觸發(fā)模型的輸出v(t)進(jìn)行100 Hz降采樣,得到分幀信號(hào)w(m),m=1,2,…,M,M是幀數(shù)。各幀能量記為Gc(m),對(duì)Gc(m),c=1,2,…,C計(jì)算M階的離散余弦變換來(lái)降低M個(gè)子帶間的數(shù)據(jù)相關(guān)性,取前D維的數(shù)據(jù),得到GECC特征:

        m=1,2,…,2M,k=0,1,…,D-1

        (10)

        2.2 音高

        從人的發(fā)音結(jié)構(gòu)和語(yǔ)音的形成過(guò)程,可以把語(yǔ)音信號(hào)等效成激勵(lì)-濾波器模型,聲門產(chǎn)生激勵(lì),聲門激勵(lì)滿足準(zhǔn)周期性就可以產(chǎn)生有固定諧波結(jié)構(gòu)的語(yǔ)音信號(hào),這類語(yǔ)音稱之為濁音[14];將不具有周期性且與噪聲類似的聲門激勵(lì)生成的語(yǔ)音信號(hào)稱為清音。聲帶、嘴唇、口腔的作用可以等效成聲道濾波器響應(yīng)。聲道濾波器反映的主要是語(yǔ)義信息(音素,詞匯),說(shuō)話人的特性主要取決于聲門激勵(lì)。濁音的基頻在聽(tīng)覺(jué)的感受就表現(xiàn)在音高上,每個(gè)人的音高略有不同,分布在50 Hz~500 Hz的范圍內(nèi),男性的音高比女性要低,成人的音高比小孩的要低。音高的差異可以作為說(shuō)話人區(qū)分的一個(gè)重要特征。

        對(duì)應(yīng)某個(gè)特定子帶c、時(shí)間幀m內(nèi)的毛細(xì)胞觸發(fā)輸出v(t)的自相關(guān):

        vc(mN/2-k-τ)×h2(k+N/2)

        (11)

        (12)

        通常人類的基音范圍在80 Hz ~500 Hz,對(duì)應(yīng)的延時(shí)區(qū)間是τ∈[2 ms,12.5 ms],通過(guò)搜索最大值得到音高Pm:

        (13)

        對(duì)檢測(cè)的音高序列做平滑處理,得到連續(xù)的基音軌跡。

        3 說(shuō)話人轉(zhuǎn)換檢測(cè)系統(tǒng)

        本文基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)由聽(tīng)覺(jué)外圍處理、特征提取、轉(zhuǎn)換點(diǎn)判決3個(gè)部分組成,如圖2所示。聽(tīng)覺(jué)外圍處理將語(yǔ)音信號(hào)經(jīng)由伽馬通濾波器組濾波,再用Meddis毛細(xì)胞觸發(fā)模型得到聽(tīng)覺(jué)神經(jīng)末梢的發(fā)放概率。對(duì)發(fā)放概率按幀能量檢測(cè)對(duì)應(yīng)幀是濁音、清音還是靜音,各幀的屬性標(biāo)記以后,得到濁音的連續(xù)片段,稱為子段,記為S。對(duì)所有相鄰的子段對(duì)(Si,Si+1)進(jìn)行貝葉斯信息準(zhǔn)則判決,得到分割初步判決結(jié)果。經(jīng)過(guò)貝葉斯信息準(zhǔn)則判決后,已經(jīng)得到一定數(shù)量的說(shuō)話人轉(zhuǎn)換點(diǎn),區(qū)間驗(yàn)證的作用是試圖利用音高信息,對(duì)可疑的轉(zhuǎn)化點(diǎn)進(jìn)行剔除,并嘗試找回已經(jīng)被遺漏的轉(zhuǎn)化點(diǎn)。

        圖2 基于聽(tīng)覺(jué)場(chǎng)景分析說(shuō)話人轉(zhuǎn)換檢測(cè)系統(tǒng)

        3.1 清濁音檢測(cè)

        對(duì)毛細(xì)胞觸發(fā)模型的輸出v(t)進(jìn)行短時(shí)分幀,并計(jì)算在各子帶內(nèi)每幀的能量圖E(c,m)。沿時(shí)間軸方向?qū)ψ訋芰窟M(jìn)行能量規(guī)整:

        (14)

        c=1,2,…,C,m=1,2,…,M

        (15)

        其中,th0為低能量判決門限,th1為高能量判決門限。

        首先檢測(cè)濁音,在頻率小于950 Hz的低頻區(qū)(中心頻率離950 Hz最近的子帶記為Cs),濁音一定會(huì)有能量中心,而清音或者背景噪聲在此區(qū)域內(nèi)的能量與濁音的諧波能量相比,幾乎可以忽略不計(jì)[15]。按以下約束對(duì)各幀進(jìn)行標(biāo)記:

        c=1,2,…,Cs,m=1,2,…,M-1

        (16)

        其中,V表示濁音,X表示未定。標(biāo)記為V的所有幀記為集合setV,標(biāo)記為X的所有幀記為集合setX。

        清音在高頻區(qū)(頻率大于950 Hz)雖然沒(méi)有能量中心,但和靜音相比有明顯的能量分布,在setX中各幀按照以下約束進(jìn)行標(biāo)記:

        c=Cs…C,m∈setX

        (17)

        其中,U表示清音,S表示靜音,清音幀的集合記為setU,靜音幀的集合記為setS。

        3.2 分割初判決

        對(duì)分幀信號(hào)標(biāo)記濁音、清音、靜音以后,可以得到語(yǔ)音的連續(xù)片段,稱為子段,記為S,Si={x1,x2,…,xMi},xj是第j幀的特征矢量,Mi是第i段的幀數(shù)。說(shuō)話人A說(shuō)了一串語(yǔ)音,該段語(yǔ)音中包含若干A的子段,然后轉(zhuǎn)變成B的若干子段。屬于同一說(shuō)話人的子段之間相似度較高,而不同說(shuō)話人之間的相似度較低。對(duì)完整語(yǔ)音按照說(shuō)話人不同進(jìn)行分割,就可以通過(guò)檢驗(yàn)相鄰的子段對(duì)(Si,Si+1),對(duì)以下2種假設(shè)做出判決:

        (18)

        這是模型選擇問(wèn)題,如果p(H0)>p(H1),則假設(shè)H0成立,反之亦然。對(duì)子段的特征訓(xùn)練單高斯模型,Si~N(μi,Σi),Si+1~N(μi+1,Σi+1),Si∪Si+1~N(μ,Σ),單高斯模型對(duì)特征進(jìn)行似然度打分:

        (19)

        (20)

        (21)

        此時(shí)判決結(jié)果可以表示為:

        (22)

        貝葉斯信息準(zhǔn)則(BIC)在模型選擇問(wèn)題上具有較好的性能,并有廣泛的應(yīng)用[16],貝葉斯信息準(zhǔn)則滿足:

        (23)

        其中,D是GECC特征維度,λ是調(diào)節(jié)因子,一般設(shè)為1即可。

        對(duì)所有相鄰的子段對(duì)(Si,Si+1)進(jìn)行貝葉斯信息準(zhǔn)則判決,得到分割初步判決結(jié)果。

        3.3 區(qū)間驗(yàn)證

        經(jīng)過(guò)貝葉斯信息準(zhǔn)則判決后,已經(jīng)得到一定數(shù)量的說(shuō)話人轉(zhuǎn)換點(diǎn),區(qū)間驗(yàn)證的作用是試圖利用音高信息,對(duì)可疑的轉(zhuǎn)化點(diǎn)進(jìn)行剔除,并嘗試找回已經(jīng)被遺漏的轉(zhuǎn)化點(diǎn)。

        根據(jù)貝葉斯信息準(zhǔn)則判決產(chǎn)生的相鄰轉(zhuǎn)換點(diǎn)之間的時(shí)間幀區(qū)間內(nèi)存在的子段個(gè)數(shù)N,采用不同的處理策略。

        當(dāng)N=1時(shí),兩相鄰轉(zhuǎn)換點(diǎn)之間有一個(gè)孤立子段,此時(shí)判斷孤立子段兩側(cè)轉(zhuǎn)換點(diǎn)之間的時(shí)間間隔是否足夠小,如果小于1 s且孤立子段的音高和左右兩側(cè)有一邊比較吻合,就剔除掉吻合度較低的那一側(cè)的轉(zhuǎn)化點(diǎn)。當(dāng)15時(shí),從距離兩側(cè)轉(zhuǎn)換點(diǎn)最近的子段開(kāi)始,逐步向中間的子段逼近描繪基音軌跡,哪一側(cè)軌跡吻合度高就先向中間過(guò)渡一個(gè)子段,繼續(xù)逼近,直到兩邊匯合,如果最后匯合處兩側(cè)的基音軌跡存在明顯跳變,就在匯合處補(bǔ)充一個(gè)轉(zhuǎn)化點(diǎn)。

        4 實(shí)驗(yàn)設(shè)置與數(shù)據(jù)分析

        測(cè)試數(shù)據(jù)庫(kù)選用conTIMIT數(shù)據(jù)集[17],一共包含55條語(yǔ)音波形文件,統(tǒng)計(jì)語(yǔ)音時(shí)長(zhǎng)3 675 s,有效分割點(diǎn)數(shù)1 071個(gè),平均每個(gè)說(shuō)話人段長(zhǎng)3.29 s,最短1.14 s,最長(zhǎng)11.75 s,標(biāo)準(zhǔn)差1.75 s。語(yǔ)音采樣頻率為16 000 Hz,實(shí)驗(yàn)中語(yǔ)音分幀幀長(zhǎng)20 ms,幀移10 ms,GFCC特征選擇23維基本特征加一階差分特征,MFCC特征選擇13維基本特征加一階差分特征。

        對(duì)說(shuō)話人轉(zhuǎn)化檢測(cè)的性能評(píng)價(jià),用等錯(cuò)率和F1值。當(dāng)虛警率(False Alarm Rate,FAR)和漏報(bào)率(Miss Detection Rate,MDR)相等時(shí),得到等錯(cuò)率(Equal Error Rate,EER):

        (24)

        (25)

        (26)

        用召回率(Recall)和準(zhǔn)確率(Precision)計(jì)算F1值:

        (27)

        (28)

        (29)

        其中,FA是轉(zhuǎn)換點(diǎn)虛報(bào)個(gè)數(shù),MD是未檢測(cè)出的轉(zhuǎn)換點(diǎn)個(gè)數(shù),GT是實(shí)際的轉(zhuǎn)換點(diǎn)個(gè)數(shù),GD是正確檢測(cè)出的轉(zhuǎn)換點(diǎn)個(gè)數(shù)。

        在數(shù)據(jù)集上用貝葉斯信息準(zhǔn)則作為距離準(zhǔn)則得到說(shuō)話人轉(zhuǎn)換點(diǎn),并和加權(quán)距離度量(Weighted Distance Measure,WDM)[18]準(zhǔn)則檢測(cè)的性能做對(duì)比。表1給出濁音子段、清音子段、語(yǔ)音子段(包含濁音和清音)的段長(zhǎng)統(tǒng)計(jì)信息。分別計(jì)算分割邊界轉(zhuǎn)換點(diǎn)的漏報(bào)率-虛警率曲線,如圖3~圖5所示,對(duì)應(yīng)的等錯(cuò)率結(jié)果如表2所示。單獨(dú)計(jì)算濁音子段,BIC和WDM兩種方法的轉(zhuǎn)換點(diǎn)與檢測(cè)點(diǎn)都是非常差的,80%的子段段長(zhǎng)落在0.1 s~0.5 s范圍內(nèi),造成BIC失效。在同樣極短時(shí)間的條件下,清音子段的表現(xiàn)比濁音好得多。把相鄰濁音和清音連接成語(yǔ)音子段,段長(zhǎng)平均達(dá)到1.34 s,與說(shuō)話人識(shí)別的最低2 s的要求已經(jīng)比較接近,GECC特征在BIC準(zhǔn)則下達(dá)到最好檢測(cè)效果,等錯(cuò)率降到26.8%。

        表1 濁音、清音、語(yǔ)音段長(zhǎng)統(tǒng)計(jì) s

        圖3 濁音子段(V-S)虛警率和漏報(bào)率曲線

        圖4 清音子段(U-S)虛警率和漏報(bào)率曲線

        圖5 語(yǔ)音子段(UV-S)虛警率和漏報(bào)率曲線

        表2 不同特征、不同子段類別切分等錯(cuò)率 %

        濁音子段的音高特征在說(shuō)話剛開(kāi)始時(shí)會(huì)出現(xiàn)跳高音陡降至穩(wěn)態(tài)基頻區(qū)的過(guò)程,在說(shuō)話結(jié)束時(shí)幾乎都會(huì)發(fā)生從穩(wěn)態(tài)基頻降頻的收尾效應(yīng),但在同一個(gè)說(shuō)話人語(yǔ)音內(nèi)跳躍幅度比較平穩(wěn),在區(qū)間驗(yàn)證的過(guò)程中利用這一信息,既可以剔除掉一些虛警轉(zhuǎn)換點(diǎn),也可以找回一些已經(jīng)漏掉的轉(zhuǎn)換點(diǎn),從表3可以看到最終的等錯(cuò)率可以下降到23.2%,相應(yīng)的F1值為70.0%。

        表3 結(jié)合音高補(bǔ)償后的檢測(cè)性能 %

        5 結(jié)束語(yǔ)

        在基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)變檢測(cè)中,由于伽馬通濾波器和毛細(xì)胞模型對(duì)人耳聽(tīng)覺(jué)系統(tǒng)的模擬,可以將語(yǔ)音信號(hào)按照人的聽(tīng)覺(jué)感知對(duì)各個(gè)頻帶進(jìn)行精細(xì)劃分,得到準(zhǔn)確的清音和濁音信息以及穩(wěn)健的基頻軌跡?;诖?本文一種提出基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)方法。將語(yǔ)音分割成相鄰的若干語(yǔ)音子段(包含清音、濁音、極短靜音),提取伽馬通能量倒譜系數(shù)特征,在貝葉斯信息準(zhǔn)則的判決下得到初始說(shuō)話人轉(zhuǎn)換點(diǎn),最后利用濁音的基頻特征對(duì)漏檢和錯(cuò)檢的轉(zhuǎn)換點(diǎn)進(jìn)行后處理,最終得到較好的檢測(cè)結(jié)果。在conTIMIT數(shù)據(jù)集上的測(cè)試結(jié)果表明,不做音高檢測(cè),最優(yōu)性能是選用GECC特征在BIC準(zhǔn)則下等錯(cuò)率達(dá)到26.8%,利用音高信息,得到GFCC特征在BIC準(zhǔn)則下性能提高到23.2%,GECC和GECC特征的性能優(yōu)于MFCC,BIC準(zhǔn)則優(yōu)于WDM準(zhǔn)則,在短時(shí)語(yǔ)音說(shuō)話人快速轉(zhuǎn)變的口語(yǔ)對(duì)話環(huán)境中,即使無(wú)法訓(xùn)練說(shuō)話人模型,也可以達(dá)到一定的檢測(cè)準(zhǔn)確性。

        [1] BAZYAR M,SUDIRMAN R.A New Speaker Change Detection Method in a Speaker Identification System for Two-speakers Segmentation[C]//Proceedings of 2014 ACM Symposium on Computer Applications and Industrial Electronics.New York,USA:ACM Press,2014:141-145.

        [2] MALEQAONKAR A S,ARIYAEEINIA A M.Efficient Speaker Change Detection Using Adapted Gaussian Mixture Models[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(6):1859-1869.

        [3] ZAHID S,HUSSAIN F,RASHID M,et al.Optimized Audio Classification and Segmentation Algorithm by Using Ensemble Methods[J].Mathematical Problems in Engineering,2015(11):209-214.

        [4] 鄭繼明,張 萍.改進(jìn)的BIC說(shuō)話人分割算法[J].計(jì)算機(jī)工程,2010,36(17):240-242.

        [5] KOTTI M,BENETOS E,KOTROPOULOS C.Computa-tionally Efficient and Robust BIC-based Speaker Segmenta-tion[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(5):920-933.

        [6] YANG J,HE Q,LI Y,et al.Speaker Change Detection Based on Mean Shift[J].Journal of Computers,2013,8(3):638-644.

        [7] WU Z,EVANS N,KINNUNEN T,et al.Spoofing and Countermeasures for Speaker Verification:A Survey[J].Speech Communication,2015,66(1):130-153.

        [8] 張學(xué)良,劉文舉,李 鵬,等.改進(jìn)諧波組織規(guī)則的單通道濁語(yǔ)音分離系統(tǒng)[J].聲學(xué)學(xué)報(bào),2011,36(1):88-96.

        [9] CUSACK R,DECKS J,AIKMAN G,et al.Effects of Location,Frequency Region,and Time Course of Selective Attention on Auditory Scene Analysis[J].Journal of Experimental Psychology:Human Perception and Performance,2004,30(4):643-656.

        [10] MAKA T.Change Point Determination in Audio Data Using Auditory Features[J].International Journal of Electronics and Telecommunications,2015,61(2):185-190.

        [11] MEDDIS R.Simulation of Mechanical to Neural Transduction in the Auditory Receptor[J].The Journal of the Acoustical Society of America,1986,79(3):702-711.

        [12] LI L.Performance Analysis of Objective Speech Quality Measures in Mel Domain[J].Journal of Software Engineering,2015,9(2):350-361.

        [13] KAUR G,SINGH D,RANI P.Robust Speaker Recognition Biometric System a Detailed Review[J].Emerging Research in Management & Technology,2015,4(5):281-288.

        [14] 王 民,任雪妮,孫 潔.一種高效的基音檢測(cè)與評(píng)估算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(14):126-132.

        [15] 胡 瑛,陳 寧.基于小波變換的清濁音分類及基音周期檢測(cè)算法[J].電子與信息學(xué)報(bào),2008,30(2):353-356.

        [16] CHEN S,GOPALAKRISHNAN P.Speaker,Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C]//Proceedings of Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publishers,1998:127-132.

        [17] SEO J S.Speaker Change Detection Based on a Graph-partitioning Criterion[J].The Journal of the Acoustical Society of Korea,2011,30(2):80-85.

        [18] KWON S,NARAYANAN S S.Speaker Change Detection Using a New Weighted Distance Measure[C]//Pro-ceedings of the 7th International Conference on Spoken Language Processing.Washington D.C.,USA:IEEE Press,2002:2537-2540.

        猜你喜歡
        濁音清音音高
        喬治·克拉姆《大宇宙Ⅲ》音高組織分析
        《山水清音》
        《園林清音》
        人文天下(2022年5期)2022-08-11 14:49:26
        里蓋蒂《小提琴協(xié)奏曲》中的“雙律制音高組織”研究
        日語(yǔ)半濁音的變化規(guī)律研究
        改進(jìn)音高輪廓?jiǎng)?chuàng)建和選擇的旋律提取算法
        清濁音分離抗噪的語(yǔ)音識(shí)別算法的研究
        有關(guān)鼻濁音使用實(shí)態(tài)的研究
        ——以NHK新聞為中心
        音樂(lè)是一種特殊的語(yǔ)言——聊聊音高的魅力
        學(xué)與玩(2017年5期)2017-02-16 07:06:28
        基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的改進(jìn)清音分離方法
        国产精品高清一区二区三区人妖| 久久国产精品二国产精品| 一本色道久久99一综合| 国产91在线免费| 人妻少妇看A偷人无码电影| 成人免费毛片在线播放| 一区二区三区视频在线观看| 一亚洲一区二区中文字幕| 国产一区二区三区在线观看黄| 老鸭窝视频在线观看| 天堂а√在线最新版中文在线| 久久中文字幕av一区二区不卡| 日韩在线不卡一区在线观看| 亚洲天堂男人的av天堂| 无码a级毛片免费视频内谢5j| 午夜成人理论无码电影在线播放| 三级国产女主播在线观看| 中文字幕视频一区懂色| 音影先锋中文字幕在线| 亚洲成人色区| 亚洲AV无码一区二区二三区我| 日韩av一区二区无卡| 久久国内精品自在自线| 精品乱码久久久久久久 | 久久久久久久一线毛片| 国产日产免费在线视频| 日韩av一区二区网址| 粗壮挺进人妻水蜜桃成熟漫画| 最新国产精品亚洲二区| 黄片午夜免费观看视频国产| 国产一区二区三区最新地址| 国产md视频一区二区三区| 免费无码国产v片在线观看| 人妻中文字幕一区二区二区| 国产极品大秀在线性色| av国产传媒精品免费| AV有码在线免费看| 中国老太老肥熟女视频| 日本亚洲视频一区二区三区| 国产亚洲午夜高清国产拍精品| 国产在线不卡免费播放|