賈麗文
(山西警察學(xué)院,山西太原030012)
音量增大時(shí)語音的長時(shí)共振峰分布特征變化及其對(duì)聲紋鑒定的影響
賈麗文
(山西警察學(xué)院,山西太原030012)
長時(shí)共振峰分布特征是近年來才開始使用的研究方法。目前尚未廣泛的應(yīng)用于聲紋鑒定實(shí)務(wù)。本文將采用長時(shí)共振峰分布特征來探究聲紋鑒定實(shí)務(wù)中經(jīng)常遭遇的一種情形,即檢材語音和樣本語音音量不同的情況。實(shí)驗(yàn)用Lombard效應(yīng)法增大語音,對(duì)30位發(fā)音人在正常和85分貝噪音兩種不同的條件下進(jìn)行錄音??疾扉L時(shí)共振峰分布特征的變化,以期對(duì)聲紋鑒定實(shí)務(wù)提供幫助。
聲紋鑒定;音量增大;Lombard效應(yīng);長時(shí)共振峰分布
對(duì)語音音量增大時(shí)語音的聲學(xué)參數(shù)的研究可謂不少,但應(yīng)用長時(shí)共振峰分布特征這一聲學(xué)參數(shù)的可謂鳳毛麟角。長時(shí)共振峰分布特征是近年來才開始使用的研究方法。它最早由Nolan和Grigoras提出,該方法不是分析具體的目標(biāo)元音,而是提取一整段語音中的全部元音信息進(jìn)行分析,得出每條共振峰的整體分布情況。因此,這種方法取名為長時(shí)共振峰分布法(Long-Term Formant Distribution,縮寫為LTF)。該分布特征不僅可以概括發(fā)音人聲道的整體共鳴特點(diǎn),還能反映出發(fā)音人一定的發(fā)音習(xí)慣,可以用于區(qū)分不同發(fā)音人。具有高效省時(shí)、便捷快速以及普適性的優(yōu)點(diǎn)。尤其是對(duì)于不同種的語言,只要能夠獲取大量語段得到長時(shí)的元音就可以觀測其LTF。也有學(xué)者開始將這一特征應(yīng)用到話者自動(dòng)識(shí)別系統(tǒng)中。國外學(xué)者Jessen研究長時(shí)共振峰特征在音量增大時(shí)的變化,得到的結(jié)論是第一共振峰的長時(shí)共振峰值均有所增加,用T檢驗(yàn)可見顯著性差異。第二共振峰和第三共振峰的變化均無統(tǒng)一的規(guī)律,用T檢驗(yàn)不可見顯著性差異。但是該文只是比較了長時(shí)共振峰的均值,并沒有考察長時(shí)共振峰的分布特征。本文將考察音量增大時(shí)嘗試共振峰的分布特征。
1.1發(fā)音人
發(fā)音人為30名成年男性,無喉部疾病及手術(shù)歷史,說標(biāo)準(zhǔn)的普通話。發(fā)音者均來自北京大學(xué)和中國政法大學(xué)的本科生和碩士研究生,年齡在19歲~26歲之間。
1.2錄音內(nèi)容
發(fā)音內(nèi)容為短文為《北風(fēng)與太陽》。
1.3錄音設(shè)備
本文實(shí)驗(yàn)樣本均在北京大學(xué)語言學(xué)專業(yè)錄音室錄制。聲卡型號(hào)為創(chuàng)新(Creative)SB X-Fi Surround 5.1 Pro。使用百靈達(dá)(BEHRINGER)XENYX 502調(diào)音臺(tái)。使用SONYECM-44B領(lǐng)夾式麥克風(fēng)錄音,采樣頻率為22 kHz,精度為16位。錄音軟件為Cool Edit Pro 2.1。
1.4語音增大的方法
本實(shí)驗(yàn)所采用的語音增大的方法是Lombard效應(yīng)法。Lombard效應(yīng)是基于人類都有Lombard反射。Etienne Lombard在1909年第一個(gè)發(fā)現(xiàn)人們?cè)诃h(huán)境嘈雜的時(shí)候,說話聲音會(huì)變大。因此就將這種人的反射稱為Lombard效應(yīng)。Lombard效應(yīng)法的通常做法是通過頭戴式耳機(jī)給發(fā)音者加噪聲,從而使話者的聲音被動(dòng)增大。
本實(shí)驗(yàn)采用Lombard效應(yīng)法的具體做法是使發(fā)音者頭戴加有噪聲的耳機(jī)。噪音的聲壓級(jí)保持不變,為85分貝的白噪。噪音由Praat軟件生成。由電腦千千靜聽軟件播放。
1.5錄音過程
錄音時(shí),保持麥克風(fēng)與發(fā)音者之間的距離為50 cm。整個(gè)錄音過程中發(fā)音人的位置保持不變。發(fā)音詞表在發(fā)音人正對(duì)面,錄制過程中,發(fā)音人不能出現(xiàn)前探、后仰、左右搖擺等情形,發(fā)音過程中要保證發(fā)音人的嘴與麥克風(fēng)之間的距離不變。在噪音條件下發(fā)音時(shí)要求發(fā)音者的發(fā)音能夠盡量使自己聽到自己的發(fā)音內(nèi)容。
1.6聲學(xué)測量
本文中,聲學(xué)分析均使用軟件Wavesurfer。
使用Wavesurfer軟件將發(fā)音者所朗讀的短文《北風(fēng)與太陽》中的無聲部分、輔音、鼻音等全部切除,留下共振峰結(jié)構(gòu)明顯的元音。剪切完成后的語音保持在10 s~15 s,具體時(shí)長信息見表1。
表1 短文剪切前后時(shí)長對(duì)比
長時(shí)共振峰分布提取采用寬帶語圖,提取四條共振峰。窗口類型為哈明窗。下采樣頻率為10000 Hz。LPC階數(shù)為12。
本實(shí)驗(yàn)中主要考察四個(gè)共振峰長時(shí)的均值和分布形態(tài),第一、二、三、四共振峰的長時(shí)分布分別記作LTF1、LTF2、LTF3、LTF4。
2.1長時(shí)共振峰均值
四條共振峰的長時(shí)均值見圖1,T檢驗(yàn)結(jié)果見表2。
四張圖按照自上而下的順序分別為第一、二、三、四共振峰的長時(shí)均值統(tǒng)計(jì)圖。在單張圖中橫坐標(biāo)表示發(fā)音者順序,依次為1號(hào)~30號(hào)發(fā)音人??v坐標(biāo)表示共振峰的頻率值(單位:Hz)。圖中黑色條形表示發(fā)音者在正常條件下的共振峰值,灰色條形表示發(fā)音者在Lombard效應(yīng)下,即在噪聲環(huán)境下音量增大時(shí)的共振峰值。
表2 四條共振峰的長時(shí)均值的T檢驗(yàn)結(jié)果
圖1 四條共振峰長時(shí)均值統(tǒng)計(jì)圖
由統(tǒng)計(jì)圖可見:LTF1在音量增大時(shí)均有所升高,T檢驗(yàn)結(jié)果為顯著性相關(guān)。LTF2、LTF4在音量增大時(shí)均有升有降,沒有統(tǒng)一的規(guī)律,但二者之間仍有顯著性差異。并且,對(duì)于LTF2均值而言,其變化的幅度非常小,大部分占正常發(fā)音時(shí)共振峰頻率值的0%~3%,只有一個(gè)人達(dá)到了8%??梢哉fLTF2均值在音量增大時(shí)基本沒有變化。LTF3在音量增大時(shí)有升有降,沒有統(tǒng)一的規(guī)律,但P值為0.799,說明音量增大時(shí),LTF3沒有顯著性差異。
2.2共振峰長時(shí)分布形態(tài)
共振峰長時(shí)分布形態(tài)的具體做法是對(duì)所提取的四個(gè)共振峰的長時(shí)頻率值進(jìn)行頻數(shù)分布,即一定頻率范圍內(nèi)出現(xiàn)的次數(shù),可以得到四條共振峰的長時(shí)分布特點(diǎn)。
(1)LTF1分布形態(tài)
圖2 1號(hào)發(fā)音者LTF1分布圖
以1號(hào)發(fā)音者為例,對(duì)其LTF1進(jìn)行統(tǒng)計(jì),結(jié)果如圖2所示。圖2上圖為發(fā)音者在正常條件下所得LTF1的分布特征,下圖為發(fā)音者在Lombard條件下,即音量增大時(shí)的LTF1的分布特征。每一圖中,X軸為統(tǒng)計(jì)的頻率范圍(單位:Hz),Y軸為頻數(shù),即出現(xiàn)的次數(shù)。由圖2可見LTF1在正常條件下和音量增大時(shí)的差別較大。
在正常條件下,LTF1先呈現(xiàn)緩坡上升,在575Hz~625 Hz時(shí)達(dá)到頂峰,之后極速下降,在大于925Hz的范圍內(nèi)已經(jīng)極少有分布。而在音量增大時(shí),LTF1先呈現(xiàn)急速上升,在525 Hz~740 Hz的范圍內(nèi)均勻分布,無明顯“尖峰”,之后急速下降,在925 Hz~1025 Hz的范圍內(nèi)仍有分布。LTF1在正常和音量增大時(shí)相差較大的情形不僅僅出現(xiàn)在1號(hào)發(fā)音者身上,對(duì)于所有的發(fā)音人都出現(xiàn)了此現(xiàn)象??梢?,發(fā)音人在正常和音量增大時(shí)的LTF1截然不同。
圖3 不同話者兩種條件下LTF1的分布形態(tài)
圖3以30人中的4人為例,可見LTF1不僅人各不同,其在兩種條件下的變化也不盡相同。在圖3中X軸為統(tǒng)計(jì)的頻率范圍(單位:Hz),Y軸為頻數(shù),黑色線表示發(fā)音者在正常條件下的共振峰分布,灰色線表示發(fā)音者在噪音條件下、即音量增大時(shí)的共振峰分布。對(duì)于左上圖的發(fā)音人,其在正常和音量增大時(shí)的LTF1是相似的,整體上體現(xiàn)出噪音量增大時(shí)的LTF1比在正常環(huán)境下的LTF1要整體向右移動(dòng)4個(gè)統(tǒng)計(jì)頻率范圍。對(duì)于右上圖的發(fā)音人,其在正常條件下的共振峰分布十分平穩(wěn)不見“尖峰”,但在音量增大時(shí)卻出現(xiàn)了集中的“尖峰”。同樣,左下圖的發(fā)音人,在正常條件下的共振峰分布有兩個(gè)“尖峰”,但是在音量增大時(shí)卻只有一個(gè)。而右下圖的發(fā)音人,則呈現(xiàn)出正常和音量增大時(shí)共振峰分布相似的情形。總之,對(duì)于正常和音量增大時(shí)LTF1的變化特征并無明顯規(guī)律可循。
(2)LTF2分布形態(tài)
比較LTF1,LTF2的分布形態(tài)在音量增大時(shí)的變化則很有規(guī)律。對(duì)于30位發(fā)音人筆者得到了相同的結(jié)論。即音量增大時(shí)的LTF2較正常條件下并無明顯的變化。圖4以30人之中的兩人為例來表現(xiàn)這種規(guī)律。
圖4 不同話者的LTF2分布特征
在圖4上圖中發(fā)音者在正常和音量增大兩種狀態(tài)下的LTF2均有兩個(gè)“尖峰”,且第一“尖峰”區(qū)域均集中在1400 Hz~1600 Hz范圍內(nèi),第二“尖峰”區(qū)域均集中在1800 Hz~1900 Hz的范圍內(nèi)。整體形態(tài)相似并且均在2450 Hz~2600 Hz的范圍內(nèi)達(dá)到一個(gè)小“尖峰”。在下圖中,發(fā)音者在正常和音量增大時(shí)的LTF2十分相似。均在1250 Hz~1450 Hz的范圍內(nèi)達(dá)到“尖峰”。對(duì)于同一發(fā)音者,LTF2在正常和音量增大時(shí)的分布十分相似,但是不同的發(fā)音者的LTF2相差很大。由圖4也可證實(shí)。上圖發(fā)音者有“尖峰”較多且有兩個(gè)相對(duì)集中的“尖峰”區(qū)域,而下圖發(fā)音這只有一個(gè)“尖峰”區(qū)域,且“尖峰”所在區(qū)域的頻率值也不盡相同。上圖發(fā)音者的LTF2的頻率分布600 Hz~2925 Hz,而下圖發(fā)音者僅從650 Hz~2550 Hz。
(3)LTF3分布形態(tài)
筆者對(duì)于30位發(fā)音人LTF3的統(tǒng)計(jì)研究也得到了相同的結(jié)論。以30人中的2人為例。結(jié)果見圖5。
圖5 不同話者的LTF3分布特征
由前人的研究可得,LTF3的分布特征為有一個(gè)“尖峰”,這一特征無一例外的適用于所有的人。對(duì)于音量增大時(shí)與正常條件下LTF3的差別,我們所得出的結(jié)論是在噪音條件下的LTF3的“尖峰”均高于在正常條件下的“尖峰”,換言之,在音量增大時(shí)頻率表現(xiàn)的更為集中。由圖5可見,在音量增大和正常兩種條件下,發(fā)音者的LTF3均出現(xiàn)了一個(gè)“尖峰”,且“尖峰”的集中區(qū)域在同一區(qū)域。音量增大時(shí)的LTF3并未出現(xiàn)左移或者右移的現(xiàn)象,而是比正常條件下的“尖峰”集中范圍內(nèi)更高。僅從LTF3的分布形態(tài)而言,我們似乎很難區(qū)分不同的發(fā)音人,但事實(shí)上,區(qū)分不同發(fā)音人卻異常簡單,因?yàn)椴煌捳叩摹凹夥濉彼诘念l率區(qū)域是不同的。如圖5所示,上圖的發(fā)音者“尖峰”集中在2500 Hz~2750 Hz,且頻率分布在2125 Hz~3875 Hz的范圍內(nèi),而下圖發(fā)音者“尖峰”集中在2300 Hz~2500 Hz,頻率分布在1600 Hz~3400 Hz的范圍內(nèi)。因此,LTF3對(duì)于話者同一的認(rèn)定也有很大的價(jià)值。
(4)LTF4分布形態(tài)
第三和第四共振峰被認(rèn)為在聲紋鑒定中較有價(jià)值,因?yàn)槠浞€(wěn)定性較強(qiáng),個(gè)體差異也比較大。但是對(duì)于音量增大時(shí)LTF4卻不像LTF3那么理想。沒有統(tǒng)一的規(guī)律,但是比起LTF1而言,仍有一些趨勢值得研究和探討。
圖6 不同話者LTF4分布形態(tài)
圖6選取了30位發(fā)音人中的4位有代表性的發(fā)音人,其余發(fā)音人的規(guī)律大體相同。四圖分別為四位發(fā)音者的LTF4。由圖6不難發(fā)現(xiàn)以下幾點(diǎn)。首先,對(duì)于同一發(fā)音者而言其在正常和音量增大時(shí)的LTF4具有很大的差別。在左上圖中,發(fā)音人在正常條件下的LTF4呈現(xiàn)一個(gè)較小的“尖峰”,然后在4050 Hz~4150 Hz的頻率范圍內(nèi)達(dá)到一個(gè)較高的“尖峰”;而音量增大時(shí)LTF4先達(dá)到較高的“尖峰”之后又出現(xiàn)較小的“尖峰”,兩種狀態(tài)下的LTF4呈現(xiàn)出軸對(duì)稱的關(guān)系。在右上圖中,正常狀態(tài)下,LTF4分布平緩,小峰較多并無“尖峰”;而在音量增大時(shí)3000 Hz~3200 Hz的范圍內(nèi)出現(xiàn)較為集中的“尖峰”。在下方兩圖中,也明顯可見兩狀態(tài)下LTF4的差別。其次,不同發(fā)音者無論在正常條件下還是音量增大時(shí)的LTF4分布均不相同。在正常條件下有的發(fā)音者出現(xiàn)兩個(gè)較為明顯的“尖峰”,如左上圖和下方兩圖,但是兩個(gè)“尖峰”的分布形態(tài)各不相同,有的前者較高有的后者較高;而有的發(fā)音者則未見明顯的“尖峰”,如右上圖。在音量增大時(shí),有的發(fā)音者呈現(xiàn)出一個(gè)明顯的“尖峰”,而有的發(fā)音者則呈現(xiàn)出兩個(gè)“尖峰”。
雖然LTF4呈現(xiàn)出很多的差別,但是我們依舊從中發(fā)現(xiàn)了兩個(gè)非常有趣的規(guī)律或者趨勢。第一,發(fā)音者在正常和音量增大時(shí)的“尖峰”的集中頻率相同。只是“尖峰”的形態(tài)有所不同。例如,在左上圖中,發(fā)音者無論在在正常還是音量增大兩種狀態(tài)下,其“尖峰”均集中在3375 Hz~3475 Hz和3975 Hz~4150 Hz的范圍之內(nèi)。只是“尖峰”的形態(tài)不同,在正常條件下時(shí)兩個(gè)范圍的“尖峰”先小后大,而在音量增大時(shí)下大后小。在右下圖中,正常和音量增大時(shí)的“尖峰”均集中在3250 Hz~3450 Hz和3750 Hz~3950 Hz兩個(gè)頻率范圍之內(nèi)。在形態(tài)上,3250 Hz~3450 Hz的“尖峰”的形態(tài)相似,而3750 Hz-3950 Hz的“尖峰”則在音量增大時(shí)要比在正常條件下大。第二,發(fā)音者在正常和音量增大時(shí)的LTF4有部分是重合的。換言之,雖然從總體上看兩種狀態(tài)下的LTF4是不同的,但是卻有部分LTF4重合或者相似。例如,在左上圖中,在大于3675 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)相似,均為平穩(wěn)上升然后產(chǎn)生一個(gè)“尖峰”。在右上圖中,在大于3300 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)近乎重合。在左下圖中,在3050 Hz~3650 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)相似。在右下圖中,在2950 Hz~3650 Hz的頻率范圍內(nèi),LTF4分布形態(tài)相似,均達(dá)到“尖峰”且“尖峰”的頻數(shù)也十分相近,均在160上下。這種趨勢,有利于我們更好的認(rèn)識(shí)LTF這一特征,當(dāng)然,對(duì)于我們進(jìn)行話者的同一認(rèn)定有一定的輔助作用。
LTF所反映的是話者共振峰分布的平均狀態(tài)。對(duì)于同一話者不同的語料所得到的LTF的形態(tài)是相同的。不同話者的LTF的形態(tài)具有明顯的差別。因此,LTF在聲紋鑒定中具有重要的鑒定價(jià)值。
在發(fā)音者音量增大的時(shí)候LTF也發(fā)生了相應(yīng)的變化。這種具體的變化表現(xiàn)為:第一、共振峰的長時(shí)均值呈現(xiàn)出:在音量增大時(shí),LTF1均值升高,LTF2、LTF3、LTF4的長時(shí)均值均有升有降。第二、在音量增大的時(shí)候,LTF1的分布未出現(xiàn)明顯的變化規(guī)律,不同的話者呈現(xiàn)出的變化不盡相同;LTF2的分布與音量增大前的長時(shí)共振峰分布相吻合;LTF3的分布與音量增大前的長時(shí)共振峰分布在同一頻率范圍出現(xiàn)“尖峰”并且音量增大時(shí)的“尖峰”要明顯高于音量未增大時(shí)的高峰;LTF4的分布與音量增大前的長時(shí)共振峰分布形態(tài)部分重合,且對(duì)于不同的話者而言其重復(fù)的部分不盡相同。
為什么會(huì)出現(xiàn)長時(shí)共振峰分布形態(tài)上的變化?筆者認(rèn)為這與不同元音共振峰的結(jié)構(gòu),以及不同元音增大時(shí)共振峰的變化息息相關(guān)。大部分研究認(rèn)為,對(duì)于單個(gè)元音,音量增大時(shí),第二和第三共振峰的變化均有升有降無統(tǒng)一規(guī)律。但是當(dāng)元音集中,考察長時(shí)的共振峰分布時(shí)卻出現(xiàn)統(tǒng)一的變化規(guī)律。雖然這種規(guī)律目前尚無法從生理角度進(jìn)行解釋,但是,這一特征卻有助于長時(shí)共振峰分布特征應(yīng)用于聲紋鑒定實(shí)務(wù)。
首先,長時(shí)共振峰分布能夠反映更多的共振峰信息,應(yīng)當(dāng)成為聲紋鑒定所采用的測量參數(shù)。當(dāng)語音音量增大時(shí),第二、三共振峰長時(shí)分布形態(tài)所表現(xiàn)出的明顯規(guī)律可以為聲紋鑒定得出否定結(jié)論提供相應(yīng)的依據(jù),可以為認(rèn)定同一結(jié)論的得出提供相應(yīng)的佐證。
其次,在語音音量增大時(shí),第二、三共振峰長時(shí)分布形態(tài)都表現(xiàn)出明顯的規(guī)律。可為聲紋鑒定進(jìn)行同一認(rèn)定提供新的思路和方法。但是使用長時(shí)共振峰分布這一聲學(xué)特征來進(jìn)行聲紋鑒定應(yīng)當(dāng)滿足一定的條件。第一,被檢驗(yàn)的語料時(shí)長不宜過短。這也就是說,當(dāng)檢材語音或者樣本語音的時(shí)長只有幾個(gè)單詞、一句話或者幾句話時(shí),長時(shí)共振峰分布這一參數(shù)將不能夠使用。因?yàn)槲覀兊貌坏侥軌蛴脕矸治龅拈L時(shí)元音的語段。國外學(xué)者研究顯示,剪切后的語段,即只有元音所組成的語段的時(shí)長應(yīng)當(dāng)滿足不小于10秒的條件。這一條件的提出是針對(duì)英語這一語種。由于漢語的復(fù)雜性以及目前尚未確定究竟多長的時(shí)間能夠獲得最良好的長時(shí)共振峰分布,因此,剪切后的語段不宜過短。第二,長時(shí)共振峰分布特征的應(yīng)用對(duì)于語段的質(zhì)量要求較高。共振峰分布反映的是一種共振峰的形態(tài),因此,語音要能夠清晰地反映出共振峰的結(jié)構(gòu)。質(zhì)量差的語音,共振峰結(jié)構(gòu)不清晰,得到的共振峰的分布形態(tài)也是錯(cuò)誤的。對(duì)原本的共振峰分布的形態(tài)產(chǎn)生掩蔽,做出的鑒定意見也是需要質(zhì)疑的。
最后,本實(shí)驗(yàn)是在較為理想的實(shí)驗(yàn)室環(huán)境下進(jìn)行的。語音的錄制也采用較為優(yōu)良的錄音設(shè)備。但是在鑒定實(shí)踐中,語音的錄制設(shè)備花樣繁多,常常為手機(jī)或者錄音筆等。錄制設(shè)備的不同、信道的差異也會(huì)對(duì)語音的聲學(xué)參數(shù)分析帶來影響。這些變化雖未體現(xiàn)在本文中,但是也應(yīng)當(dāng)引起鑒定人員的重視。
[1]Nolan F,Grigoras C.A case for formant analysis in forensic speaker identification[J].International Journal of Speech Language and the Law,2005,12(2):143-173.
[2]曹洪林,孔江平.長時(shí)共振峰分布特征在聲紋鑒定中的應(yīng)用[J].中國司法鑒定,2013,66(1):62-67.
[3]Jessen M,Becker T.Long-term Formant Distribution as a forensic-phonetic feature[J].Journal of the Acoustical Society of America,2010,128(4):2378.
[4]Kirchhuebel C.The effects of Lombard speech on vowel formant measurements[J].Journal of the Acoustical Society of America,2010,128(4):283-291.
Change of Long-term Formant Distribution and Its influence of Forensic Speaker Identification When the Volume Increases
JIA Li-wen
(Shanxi Police College,Taiyuan Shanxi,030012)
Long-term formant distribution is a research method that has been used in recent years.This method has not been widely used in forensic speaker identification.This paper will use long-term formant distribution to explore a situation which is often encountered in forensic speaker identification,that is the volume of voice and sample is different.Experiment used Lombard effect method to increase voice.Sound recordings were made by 30 persons under two different conditions:normal and 85 dB noise.The experiment will examine the change of long-term formant distribution,in order to provide help to forensic speaker identification.
forensic speaker identification;volume increase,Lombard effect;long-term formant distribution
O572.25
A
〔責(zé)任編輯 高彩云〕
1674-0874(2017)01-0024-05
2016-11-16
賈麗文(1988-),女,山西太原人,助教,研究方向:證據(jù)法學(xué),刑事技術(shù),聲紋鑒定。