亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)

2018-03-02 09:23:30楊登舟夏善紅

計(jì)算機(jī)工程 2018年2期

楊登舟,劉加,夏善紅

(1.中國(guó)科學(xué)院電子學(xué)研究所,北京 100190; 2.中國(guó)科學(xué)院大學(xué),北京 100049;3.清華大學(xué) 電子工程系,北京 100084)

0 概述

隨著電子通信和計(jì)算機(jī)技術(shù)的快速發(fā)展,大量的語(yǔ)音數(shù)據(jù)被存儲(chǔ),如何快速地建立語(yǔ)音檢索是亟需解決的問(wèn)題。說(shuō)話人轉(zhuǎn)換檢測(cè)(Speaker Change Detection,SCD),也稱說(shuō)話人分割[1],是語(yǔ)音信號(hào)處理中的一項(xiàng)實(shí)用技術(shù),從一段語(yǔ)音中將不同說(shuō)話人說(shuō)話的時(shí)刻檢測(cè)出來(lái),將語(yǔ)音分割出滿足要求的片段,可以很方便地建立索引,為信息的進(jìn)一步處理提供便利[2-3]。

語(yǔ)音切分類問(wèn)題可以抽象成模型判別問(wèn)題,用特定長(zhǎng)度的窗(定長(zhǎng)窗或者變長(zhǎng)窗)掃描整段語(yǔ)音,當(dāng)窗內(nèi)左右兩部分的語(yǔ)音之間的差異達(dá)到某個(gè)閾值,認(rèn)為在窗左半部分和右半部分發(fā)生了明顯的改變,有理由懷疑此處語(yǔ)音的聲源發(fā)生了變化[4]。在說(shuō)話人轉(zhuǎn)換檢測(cè)的研究中,窗左右兩側(cè)語(yǔ)音之間的差異度量方式主要有模型差異、參數(shù)差異以及模型和參數(shù)相結(jié)合[5-6]這三大類。在基于模型的方法中,從訓(xùn)練數(shù)據(jù)中挑選出不同的發(fā)聲源,訓(xùn)練出各自的模型,同時(shí)訓(xùn)練出所有聲源的全局模型,通過(guò)分析全局模型和個(gè)體模型的不同之處,得到模型間轉(zhuǎn)化關(guān)系或者找到可區(qū)分的模型差異,常用的模型包括通用背景模型(Universal Background Model,UBM)、樣本說(shuō)話人模型(Sample Speaker Model,SSM)、隱馬爾科夫模型(Hidden Markov Model,HMM)。基于參數(shù)的方法,使用較多的特征主要包括時(shí)域短時(shí)能量、過(guò)零率、頻域的子帶能量、倒譜特征、線性預(yù)測(cè)系數(shù)等。通常使用差異度量準(zhǔn)則有貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)、廣義似然比(Generalized Likelihood Ratio,GLR)、KL散度(Kullback-Leibler divergence)、歸一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)等。

在說(shuō)話人識(shí)別問(wèn)題中,由于事先可以獲取訓(xùn)練數(shù)據(jù),可以事先訓(xùn)練出多個(gè)不同的說(shuō)話人模型,在判決階段只要將一段語(yǔ)音的特征和所有參考模型做比較,和哪一個(gè)更近就判別成哪個(gè),在閉集測(cè)試中,性能較好[7]。而說(shuō)話人轉(zhuǎn)換檢測(cè)比說(shuō)話人識(shí)別難度大,主要難點(diǎn)在于對(duì)一段語(yǔ)音做切分任務(wù),并不會(huì)提供該語(yǔ)音中所包含的說(shuō)話人的訓(xùn)練語(yǔ)料,因此不能準(zhǔn)確獲取到說(shuō)話人的模型,特別是在短時(shí)說(shuō)話人迅速轉(zhuǎn)變的對(duì)話口語(yǔ)語(yǔ)音中完成穩(wěn)定說(shuō)話人建模難度更大,需要挖掘短時(shí)說(shuō)話人差異區(qū)分性大、能全面描述說(shuō)話人發(fā)聲特性的特征。計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis,CASA)[8]根據(jù)聽(tīng)覺(jué)生理學(xué)和聽(tīng)覺(jué)心理學(xué)的研究成果,利用計(jì)算機(jī)模擬人耳耳蝸的聽(tīng)覺(jué)處理機(jī)制來(lái)處理接收到的語(yǔ)音信息,該理論能夠較好地解決諸如同信道語(yǔ)音分離問(wèn)題,充分利用語(yǔ)音的周期性和短時(shí)連續(xù)性2個(gè)重要的線索來(lái)區(qū)分不同的聲源。

本文提出一種基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)方法,將語(yǔ)音分割成相鄰的若干語(yǔ)音子段,提取伽馬音能量倒譜系數(shù)特征,在貝葉斯信息準(zhǔn)則的判決下得到初始說(shuō)話人轉(zhuǎn)換點(diǎn),最后利用濁音的基頻特征對(duì)漏檢和錯(cuò)檢的轉(zhuǎn)換點(diǎn)進(jìn)行后處理,以達(dá)到較好的檢測(cè)結(jié)果。

1 計(jì)算聽(tīng)覺(jué)場(chǎng)景分析

人每天在各種復(fù)雜的聲學(xué)環(huán)境中傾聽(tīng)語(yǔ)音,提取需要的信息,可以從周圍嘈雜的多人說(shuō)話環(huán)境中鎖定自己感興趣的聲源對(duì)象,只要信噪比合適,人耳可以將目標(biāo)聲源的聲音從背景語(yǔ)音中完全分離出來(lái),并且做得非常出色,取決于人類具有聽(tīng)覺(jué)場(chǎng)景分析(Auditory Scene Analysis,ASA)[9]的能力。

人耳的耳蝸基底膜就好像是一個(gè)初級(jí)的頻率分析器,可以將聲音中的各種頻率在基底膜上的位置進(jìn)行編碼。當(dāng)基底膜上下振動(dòng),其柯蒂氏器(Corti)也隨之產(chǎn)生相同的振動(dòng)模式,并促使毛細(xì)胞纖毛發(fā)生彎曲形變,毛細(xì)胞去極化并在其頂部產(chǎn)生耳蝸電位,該電位會(huì)引起毛細(xì)胞底部神經(jīng)纖維的應(yīng)激反應(yīng),釋放出化學(xué)物質(zhì),引導(dǎo)神經(jīng)末梢興奮,傳輸至中樞神經(jīng)。人耳除了具有頻率分析特性,對(duì)聲波強(qiáng)度的編碼也非常高效,通過(guò)神經(jīng)單元興奮后發(fā)放神經(jīng)沖動(dòng)的數(shù)量來(lái)確定強(qiáng)度。

1.1 Gammatone濾波器組模型模擬耳蝸的頻率分析

聽(tīng)覺(jué)場(chǎng)景分析中將原始語(yǔ)音信號(hào)拆分成多個(gè)子帶信號(hào)的過(guò)程是通過(guò)Gammatone濾波器組[10]來(lái)實(shí)現(xiàn)的。Gammatone濾波器組是由一系列不同帶寬不同中心頻率的帶通濾波器組成,Gammatone濾波器的沖激響應(yīng)為:

gc(t)=

(1)

其中,τ是濾波器的階數(shù),φ是初始相位,B(fc)是濾波器組的帶寬,fc是中心頻率。當(dāng)τ=4時(shí)和人耳聽(tīng)覺(jué)濾波器非常吻合。濾波器的帶寬由中心頻率對(duì)應(yīng)的等價(jià)直角帶寬(Equivalent Rectangular Bandwidth,ERB)確定:

ERB(f)=24.7×(4.37f/1 000+1)

(2)

B(f)=1.019×ERB(f)

(3)

線性頻率f和“ERB-rate”尺度頻率FERB的換算關(guān)系為:

FERB(f)=21.4×lg(0.004 37f+1)

(4)

將線性頻率80 Hz～5 000 Hz轉(zhuǎn)化為“ERB-rate”尺度頻率,并在“ERB-rate”尺度下均勻取出128個(gè),生成子帶數(shù)C=128的Gammatone濾波器組。將原始語(yǔ)音信號(hào)s(t)通過(guò)濾波器組濾波,輸出C個(gè)子帶信號(hào)uc(t):

uc(t)=s(t)×gc(t),c=1,2,…,C

(5)

1.2 毛細(xì)胞觸發(fā)模型模擬耳蝸的強(qiáng)度分析

原始語(yǔ)音信號(hào)s(t)經(jīng)過(guò)Gammatone濾波器濾波后得到uc(t),c=1,2,…,C(為表述方便,下文將省略子帶下標(biāo)c,并不影響理解)。將u(t)經(jīng)過(guò)Meddis毛細(xì)胞模型[11],可以得到描述聽(tīng)覺(jué)神經(jīng)觸發(fā)概率的信號(hào)v(t)。毛細(xì)胞觸發(fā)概率的計(jì)算過(guò)程通過(guò)以下4個(gè)方程完成:

(6)

(7)

(8)

(9)

在式(6)～式(9)中,g、r、l、h、A、B、x、y是模型常數(shù),q(t)、c(t)、w(t)是中間變量,在毛細(xì)胞傳導(dǎo)模型中有具體意義,聽(tīng)覺(jué)末梢發(fā)放概率v(t)=h·c(t)。

2 區(qū)分性特征提取

2.1 伽馬通能量倒譜系數(shù)

在語(yǔ)音識(shí)別、說(shuō)話人識(shí)別和語(yǔ)種識(shí)別中都可以見(jiàn)到梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)[12]發(fā)揮的重要作用。梅爾頻率倒譜系數(shù)是將語(yǔ)音幀的快速傅里葉變換(Fast Fourier Transformation,FFT)頻譜通過(guò)相互交疊且中心頻率沿梅爾頻率線性分布的24個(gè)三角濾波器組,對(duì)三角頻窗內(nèi)的能量計(jì)算對(duì)數(shù),對(duì)數(shù)譜計(jì)算離散余弦變換(Discrete Cosine Transform,DCT)得到梅爾頻率倒譜系數(shù)。伽馬通頻率倒譜系數(shù)[13]借鑒了梅爾頻率倒譜系數(shù)特征提取的原理。MFCC中對(duì)能量求對(duì)數(shù)得到倒譜,在GFCC中變成了計(jì)算響度壓縮,本文建立了一個(gè)介于GFCC和MFCC之間的特征,伽馬通能量倒譜系數(shù)(Gammatone Energy Cepstral Coefficients,GECC),它和GFCC的提取不同之處如圖1所示,GECC僅在于利用響度和能量的差異。

圖1 特征提取流程

對(duì)毛細(xì)胞觸發(fā)模型的輸出v(t)進(jìn)行100 Hz降采樣,得到分幀信號(hào)w(m),m=1,2,…,M,M是幀數(shù)。各幀能量記為Gc(m),對(duì)Gc(m),c=1,2,…,C計(jì)算M階的離散余弦變換來(lái)降低M個(gè)子帶間的數(shù)據(jù)相關(guān)性,取前D維的數(shù)據(jù),得到GECC特征:

m=1,2,…,2M,k=0,1,…,D-1

(10)

2.2 音高

從人的發(fā)音結(jié)構(gòu)和語(yǔ)音的形成過(guò)程,可以把語(yǔ)音信號(hào)等效成激勵(lì)-濾波器模型,聲門產(chǎn)生激勵(lì),聲門激勵(lì)滿足準(zhǔn)周期性就可以產(chǎn)生有固定諧波結(jié)構(gòu)的語(yǔ)音信號(hào),這類語(yǔ)音稱之為濁音[14];將不具有周期性且與噪聲類似的聲門激勵(lì)生成的語(yǔ)音信號(hào)稱為清音。聲帶、嘴唇、口腔的作用可以等效成聲道濾波器響應(yīng)。聲道濾波器反映的主要是語(yǔ)義信息(音素,詞匯),說(shuō)話人的特性主要取決于聲門激勵(lì)。濁音的基頻在聽(tīng)覺(jué)的感受就表現(xiàn)在音高上,每個(gè)人的音高略有不同,分布在50 Hz～500 Hz的范圍內(nèi),男性的音高比女性要低,成人的音高比小孩的要低。音高的差異可以作為說(shuō)話人區(qū)分的一個(gè)重要特征。

對(duì)應(yīng)某個(gè)特定子帶c、時(shí)間幀m內(nèi)的毛細(xì)胞觸發(fā)輸出v(t)的自相關(guān):

vc(mN/2-k-τ)×h2(k+N/2)

(11)

(12)

通常人類的基音范圍在80 Hz ～500 Hz,對(duì)應(yīng)的延時(shí)區(qū)間是τ∈[2 ms,12.5 ms],通過(guò)搜索最大值得到音高Pm:

(13)

對(duì)檢測(cè)的音高序列做平滑處理,得到連續(xù)的基音軌跡。

3 說(shuō)話人轉(zhuǎn)換檢測(cè)系統(tǒng)

本文基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)由聽(tīng)覺(jué)外圍處理、特征提取、轉(zhuǎn)換點(diǎn)判決3個(gè)部分組成,如圖2所示。聽(tīng)覺(jué)外圍處理將語(yǔ)音信號(hào)經(jīng)由伽馬通濾波器組濾波,再用Meddis毛細(xì)胞觸發(fā)模型得到聽(tīng)覺(jué)神經(jīng)末梢的發(fā)放概率。對(duì)發(fā)放概率按幀能量檢測(cè)對(duì)應(yīng)幀是濁音、清音還是靜音,各幀的屬性標(biāo)記以后,得到濁音的連續(xù)片段,稱為子段,記為S。對(duì)所有相鄰的子段對(duì)(Si,Si+1)進(jìn)行貝葉斯信息準(zhǔn)則判決,得到分割初步判決結(jié)果。經(jīng)過(guò)貝葉斯信息準(zhǔn)則判決后,已經(jīng)得到一定數(shù)量的說(shuō)話人轉(zhuǎn)換點(diǎn),區(qū)間驗(yàn)證的作用是試圖利用音高信息,對(duì)可疑的轉(zhuǎn)化點(diǎn)進(jìn)行剔除,并嘗試找回已經(jīng)被遺漏的轉(zhuǎn)化點(diǎn)。

圖2 基于聽(tīng)覺(jué)場(chǎng)景分析說(shuō)話人轉(zhuǎn)換檢測(cè)系統(tǒng)

3.1 清濁音檢測(cè)

對(duì)毛細(xì)胞觸發(fā)模型的輸出v(t)進(jìn)行短時(shí)分幀,并計(jì)算在各子帶內(nèi)每幀的能量圖E(c,m)。沿時(shí)間軸方向?qū)ψ訋芰窟M(jìn)行能量規(guī)整:

(14)

c=1,2,…,C,m=1,2,…,M

(15)

其中,th0為低能量判決門限,th1為高能量判決門限。

首先檢測(cè)濁音,在頻率小于950 Hz的低頻區(qū)(中心頻率離950 Hz最近的子帶記為Cs),濁音一定會(huì)有能量中心,而清音或者背景噪聲在此區(qū)域內(nèi)的能量與濁音的諧波能量相比,幾乎可以忽略不計(jì)[15]。按以下約束對(duì)各幀進(jìn)行標(biāo)記:

c=1,2,…,Cs,m=1,2,…,M-1

(16)

其中,V表示濁音,X表示未定。標(biāo)記為V的所有幀記為集合setV,標(biāo)記為X的所有幀記為集合setX。

清音在高頻區(qū)(頻率大于950 Hz)雖然沒(méi)有能量中心,但和靜音相比有明顯的能量分布,在setX中各幀按照以下約束進(jìn)行標(biāo)記:

c=Cs…C,m∈setX

(17)

其中,U表示清音,S表示靜音,清音幀的集合記為setU,靜音幀的集合記為setS。

3.2 分割初判決

對(duì)分幀信號(hào)標(biāo)記濁音、清音、靜音以后,可以得到語(yǔ)音的連續(xù)片段,稱為子段,記為S,Si={x1,x2,…,xMi},xj是第j幀的特征矢量,Mi是第i段的幀數(shù)。說(shuō)話人A說(shuō)了一串語(yǔ)音,該段語(yǔ)音中包含若干A的子段,然后轉(zhuǎn)變成B的若干子段。屬于同一說(shuō)話人的子段之間相似度較高,而不同說(shuō)話人之間的相似度較低。對(duì)完整語(yǔ)音按照說(shuō)話人不同進(jìn)行分割,就可以通過(guò)檢驗(yàn)相鄰的子段對(duì)(Si,Si+1),對(duì)以下2種假設(shè)做出判決:

(18)

這是模型選擇問(wèn)題,如果p(H0)>p(H1),則假設(shè)H0成立,反之亦然。對(duì)子段的特征訓(xùn)練單高斯模型,Si～N(μi,Σi),Si+1～N(μi+1,Σi+1),Si∪Si+1～N(μ,Σ),單高斯模型對(duì)特征進(jìn)行似然度打分:

(19)

(20)

(21)

此時(shí)判決結(jié)果可以表示為:

(22)

貝葉斯信息準(zhǔn)則(BIC)在模型選擇問(wèn)題上具有較好的性能,并有廣泛的應(yīng)用[16],貝葉斯信息準(zhǔn)則滿足:

(23)

其中,D是GECC特征維度,λ是調(diào)節(jié)因子,一般設(shè)為1即可。

對(duì)所有相鄰的子段對(duì)(Si,Si+1)進(jìn)行貝葉斯信息準(zhǔn)則判決,得到分割初步判決結(jié)果。

3.3 區(qū)間驗(yàn)證

經(jīng)過(guò)貝葉斯信息準(zhǔn)則判決后,已經(jīng)得到一定數(shù)量的說(shuō)話人轉(zhuǎn)換點(diǎn),區(qū)間驗(yàn)證的作用是試圖利用音高信息,對(duì)可疑的轉(zhuǎn)化點(diǎn)進(jìn)行剔除,并嘗試找回已經(jīng)被遺漏的轉(zhuǎn)化點(diǎn)。

根據(jù)貝葉斯信息準(zhǔn)則判決產(chǎn)生的相鄰轉(zhuǎn)換點(diǎn)之間的時(shí)間幀區(qū)間內(nèi)存在的子段個(gè)數(shù)N,采用不同的處理策略。

當(dāng)N=1時(shí),兩相鄰轉(zhuǎn)換點(diǎn)之間有一個(gè)孤立子段,此時(shí)判斷孤立子段兩側(cè)轉(zhuǎn)換點(diǎn)之間的時(shí)間間隔是否足夠小,如果小于1 s且孤立子段的音高和左右兩側(cè)有一邊比較吻合,就剔除掉吻合度較低的那一側(cè)的轉(zhuǎn)化點(diǎn)。當(dāng)15時(shí),從距離兩側(cè)轉(zhuǎn)換點(diǎn)最近的子段開(kāi)始,逐步向中間的子段逼近描繪基音軌跡,哪一側(cè)軌跡吻合度高就先向中間過(guò)渡一個(gè)子段,繼續(xù)逼近,直到兩邊匯合,如果最后匯合處兩側(cè)的基音軌跡存在明顯跳變,就在匯合處補(bǔ)充一個(gè)轉(zhuǎn)化點(diǎn)。

4 實(shí)驗(yàn)設(shè)置與數(shù)據(jù)分析

測(cè)試數(shù)據(jù)庫(kù)選用conTIMIT數(shù)據(jù)集[17],一共包含55條語(yǔ)音波形文件,統(tǒng)計(jì)語(yǔ)音時(shí)長(zhǎng)3 675 s,有效分割點(diǎn)數(shù)1 071個(gè),平均每個(gè)說(shuō)話人段長(zhǎng)3.29 s,最短1.14 s,最長(zhǎng)11.75 s,標(biāo)準(zhǔn)差1.75 s。語(yǔ)音采樣頻率為16 000 Hz,實(shí)驗(yàn)中語(yǔ)音分幀幀長(zhǎng)20 ms,幀移10 ms,GFCC特征選擇23維基本特征加一階差分特征,MFCC特征選擇13維基本特征加一階差分特征。

對(duì)說(shuō)話人轉(zhuǎn)化檢測(cè)的性能評(píng)價(jià),用等錯(cuò)率和F1值。當(dāng)虛警率(False Alarm Rate,FAR)和漏報(bào)率(Miss Detection Rate,MDR)相等時(shí),得到等錯(cuò)率(Equal Error Rate,EER):

(24)

(25)

(26)

用召回率(Recall)和準(zhǔn)確率(Precision)計(jì)算F1值:

(27)

(28)

(29)

其中,FA是轉(zhuǎn)換點(diǎn)虛報(bào)個(gè)數(shù),MD是未檢測(cè)出的轉(zhuǎn)換點(diǎn)個(gè)數(shù),GT是實(shí)際的轉(zhuǎn)換點(diǎn)個(gè)數(shù),GD是正確檢測(cè)出的轉(zhuǎn)換點(diǎn)個(gè)數(shù)。

在數(shù)據(jù)集上用貝葉斯信息準(zhǔn)則作為距離準(zhǔn)則得到說(shuō)話人轉(zhuǎn)換點(diǎn),并和加權(quán)距離度量(Weighted Distance Measure,WDM)[18]準(zhǔn)則檢測(cè)的性能做對(duì)比。表1給出濁音子段、清音子段、語(yǔ)音子段(包含濁音和清音)的段長(zhǎng)統(tǒng)計(jì)信息。分別計(jì)算分割邊界轉(zhuǎn)換點(diǎn)的漏報(bào)率-虛警率曲線,如圖3～圖5所示,對(duì)應(yīng)的等錯(cuò)率結(jié)果如表2所示。單獨(dú)計(jì)算濁音子段,BIC和WDM兩種方法的轉(zhuǎn)換點(diǎn)與檢測(cè)點(diǎn)都是非常差的,80%的子段段長(zhǎng)落在0.1 s～0.5 s范圍內(nèi),造成BIC失效。在同樣極短時(shí)間的條件下,清音子段的表現(xiàn)比濁音好得多。把相鄰濁音和清音連接成語(yǔ)音子段,段長(zhǎng)平均達(dá)到1.34 s,與說(shuō)話人識(shí)別的最低2 s的要求已經(jīng)比較接近,GECC特征在BIC準(zhǔn)則下達(dá)到最好檢測(cè)效果,等錯(cuò)率降到26.8%。

表1 濁音、清音、語(yǔ)音段長(zhǎng)統(tǒng)計(jì) s

圖3 濁音子段(V-S)虛警率和漏報(bào)率曲線

圖4 清音子段(U-S)虛警率和漏報(bào)率曲線

圖5 語(yǔ)音子段(UV-S)虛警率和漏報(bào)率曲線

表2 不同特征、不同子段類別切分等錯(cuò)率 %

濁音子段的音高特征在說(shuō)話剛開(kāi)始時(shí)會(huì)出現(xiàn)跳高音陡降至穩(wěn)態(tài)基頻區(qū)的過(guò)程,在說(shuō)話結(jié)束時(shí)幾乎都會(huì)發(fā)生從穩(wěn)態(tài)基頻降頻的收尾效應(yīng),但在同一個(gè)說(shuō)話人語(yǔ)音內(nèi)跳躍幅度比較平穩(wěn),在區(qū)間驗(yàn)證的過(guò)程中利用這一信息,既可以剔除掉一些虛警轉(zhuǎn)換點(diǎn),也可以找回一些已經(jīng)漏掉的轉(zhuǎn)換點(diǎn),從表3可以看到最終的等錯(cuò)率可以下降到23.2%,相應(yīng)的F1值為70.0%。

表3 結(jié)合音高補(bǔ)償后的檢測(cè)性能 %

5 結(jié)束語(yǔ)

在基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)變檢測(cè)中,由于伽馬通濾波器和毛細(xì)胞模型對(duì)人耳聽(tīng)覺(jué)系統(tǒng)的模擬,可以將語(yǔ)音信號(hào)按照人的聽(tīng)覺(jué)感知對(duì)各個(gè)頻帶進(jìn)行精細(xì)劃分,得到準(zhǔn)確的清音和濁音信息以及穩(wěn)健的基頻軌跡?；诖?本文一種提出基于聽(tīng)覺(jué)場(chǎng)景分析的說(shuō)話人轉(zhuǎn)換檢測(cè)方法。將語(yǔ)音分割成相鄰的若干語(yǔ)音子段(包含清音、濁音、極短靜音),提取伽馬通能量倒譜系數(shù)特征,在貝葉斯信息準(zhǔn)則的判決下得到初始說(shuō)話人轉(zhuǎn)換點(diǎn),最后利用濁音的基頻特征對(duì)漏檢和錯(cuò)檢的轉(zhuǎn)換點(diǎn)進(jìn)行后處理,最終得到較好的檢測(cè)結(jié)果。在conTIMIT數(shù)據(jù)集上的測(cè)試結(jié)果表明,不做音高檢測(cè),最優(yōu)性能是選用GECC特征在BIC準(zhǔn)則下等錯(cuò)率達(dá)到26.8%,利用音高信息,得到GFCC特征在BIC準(zhǔn)則下性能提高到23.2%,GECC和GECC特征的性能優(yōu)于MFCC,BIC準(zhǔn)則優(yōu)于WDM準(zhǔn)則,在短時(shí)語(yǔ)音說(shuō)話人快速轉(zhuǎn)變的口語(yǔ)對(duì)話環(huán)境中,即使無(wú)法訓(xùn)練說(shuō)話人模型,也可以達(dá)到一定的檢測(cè)準(zhǔn)確性。

[1] BAZYAR M,SUDIRMAN R.A New Speaker Change Detection Method in a Speaker Identification System for Two-speakers Segmentation[C]//Proceedings of 2014 ACM Symposium on Computer Applications and Industrial Electronics.New York,USA:ACM Press,2014:141-145.

[2] MALEQAONKAR A S,ARIYAEEINIA A M.Efficient Speaker Change Detection Using Adapted Gaussian Mixture Models[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(6):1859-1869.

[3] ZAHID S,HUSSAIN F,RASHID M,et al.Optimized Audio Classification and Segmentation Algorithm by Using Ensemble Methods[J].Mathematical Problems in Engineering,2015(11):209-214.

[4] 鄭繼明,張萍.改進(jìn)的BIC說(shuō)話人分割算法[J].計(jì)算機(jī)工程,2010,36(17):240-242.

[5] KOTTI M,BENETOS E,KOTROPOULOS C.Computa-tionally Efficient and Robust BIC-based Speaker Segmenta-tion[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(5):920-933.

[6] YANG J,HE Q,LI Y,et al.Speaker Change Detection Based on Mean Shift[J].Journal of Computers,2013,8(3):638-644.

[7] WU Z,EVANS N,KINNUNEN T,et al.Spoofing and Countermeasures for Speaker Verification:A Survey[J].Speech Communication,2015,66(1):130-153.

[8] 張學(xué)良,劉文舉,李鵬,等.改進(jìn)諧波組織規(guī)則的單通道濁語(yǔ)音分離系統(tǒng)[J].聲學(xué)學(xué)報(bào),2011,36(1):88-96.

[9] CUSACK R,DECKS J,AIKMAN G,et al.Effects of Location,Frequency Region,and Time Course of Selective Attention on Auditory Scene Analysis[J].Journal of Experimental Psychology:Human Perception and Performance,2004,30(4):643-656.

[10] MAKA T.Change Point Determination in Audio Data Using Auditory Features[J].International Journal of Electronics and Telecommunications,2015,61(2):185-190.

[11] MEDDIS R.Simulation of Mechanical to Neural Transduction in the Auditory Receptor[J].The Journal of the Acoustical Society of America,1986,79(3):702-711.

[12] LI L.Performance Analysis of Objective Speech Quality Measures in Mel Domain[J].Journal of Software Engineering,2015,9(2):350-361.

[13] KAUR G,SINGH D,RANI P.Robust Speaker Recognition Biometric System a Detailed Review[J].Emerging Research in Management & Technology,2015,4(5):281-288.

[14] 王民,任雪妮,孫潔.一種高效的基音檢測(cè)與評(píng)估算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(14):126-132.

[15] 胡瑛,陳寧.基于小波變換的清濁音分類及基音周期檢測(cè)算法[J].電子與信息學(xué)報(bào),2008,30(2):353-356.

[16] CHEN S,GOPALAKRISHNAN P.Speaker,Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C]//Proceedings of Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publishers,1998:127-132.

[17] SEO J S.Speaker Change Detection Based on a Graph-partitioning Criterion[J].The Journal of the Acoustical Society of Korea,2011,30(2):80-85.

[18] KWON S,NARAYANAN S S.Speaker Change Detection Using a New Weighted Distance Measure[C]//Pro-ceedings of the 7th International Conference on Spoken Language Processing.Washington D.C.,USA:IEEE Press,2002:2537-2540.