郭逾等
摘 要: 通過(guò)對(duì)比麥克風(fēng)與固話信道下語(yǔ)音信號(hào)的時(shí)域、頻域參數(shù),結(jié)合固話傳輸系統(tǒng)的特性,分析語(yǔ)音信號(hào)經(jīng)過(guò)固話信道傳輸后,各參數(shù)的異同點(diǎn)以及固話信道對(duì)語(yǔ)音信號(hào)的影響。并采用[F]比的方法,分析麥克風(fēng)信道和固話信道下語(yǔ)音信號(hào)MFCC特征參數(shù)的差異。實(shí)驗(yàn)結(jié)果表明,語(yǔ)音信號(hào)經(jīng)過(guò)固話信道傳輸后,不僅造成信號(hào)的頻率失真,還伴隨有寬帶噪聲和共振型噪聲。在MFCC特征參數(shù)方面,麥克風(fēng)和固話信道的第二維MFCC參數(shù)差異最明顯,低維參數(shù)相比高維參數(shù)差異較大,男性說(shuō)話人特征參數(shù)相比女性說(shuō)話人差異較大。
關(guān)鍵詞: 固話信道; 噪聲; 語(yǔ)音參數(shù); Mel頻率倒譜系數(shù); [F]比
中圖分類號(hào): TN916?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)11?0073?06
Influence of fixed telephone channel on voice feature parameters
GUO Yu, ZHANG Er?hua, LIU Chi, YANG Zi?fan
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)
Abstract: By comparing time?domain and frequency?domain parameters of voice signal in microphone channel and fixed telephone channel, the influence of parameter similarities, differences and fixed telephone channel on voice signal are analyzed in combination with the characteristics of the fixed telephone transmission system after the voice signal is transmitted through the fixed telephone channel. The difference of voice signal MFCC characteristic parameters in microphone channel and fixed telephone channel is analyzed with the method of F?ratio. The experimental results show that the frequency distortion of voice signal, accompanying with wide?band noise and resonance noise, occurs after the voice signal is transmitted in the fixed telephone channel. In the aspect of MFCC characteristic parameters, the most obvious difference is the second dimensional MFCC parameter in microphone channel and fixed telephone channel, the difference in lower dimension is greater than that in higher dimension, and the difference of characteristic parameter in male speakers is greater than that of female speakers.
Keywords: fixed telephone channel; noise; voice parameter; Mel?frequency cepstrum coefficient; F?ratio
0 引 言
近年來(lái),隨著說(shuō)話人識(shí)別技術(shù)的不斷發(fā)展,說(shuō)話人識(shí)別在干凈語(yǔ)音環(huán)境下取得了較好的識(shí)別性能。但在信道失配條件下,由于信道的卷積噪聲以及傳輸信道本身特性的原因,對(duì)原始語(yǔ)音信號(hào)產(chǎn)生了較大的影響,從而降低了說(shuō)話人識(shí)別系統(tǒng)的性能。針對(duì)信道失配問(wèn)題,目前已經(jīng)有一些處理方法,例如針對(duì)特征域的倒譜均值歸一(CMN)、RASTA濾波;針對(duì)得分域的Z?score、T?score方法;模型域的聯(lián)合因子分析(JA)[1?2]等,這些方法在實(shí)際應(yīng)用中都取得了較好的效果。但是針對(duì)信道本身的研究較為少見(jiàn),信道本身的特性、語(yǔ)音信號(hào)通過(guò)信道傳輸后產(chǎn)生何種畸變、語(yǔ)音特征參數(shù)對(duì)信道傳輸?shù)拿舾卸鹊葐?wèn)題,都需要進(jìn)一步探索。
本文首先介紹了固定電話的工作原理、固話噪聲的來(lái)源和信號(hào)失真的原因,其次將麥克風(fēng)信道語(yǔ)音和固話信道語(yǔ)音的時(shí)域和頻域參數(shù)進(jìn)行對(duì)比,然后針對(duì)MEL頻率倒譜系數(shù)(MFCC)進(jìn)行研究分析,并采用F比的方法,對(duì)麥克風(fēng)信道和固話信道下MFCC各維分量進(jìn)行比較,研究語(yǔ)音信號(hào)經(jīng)過(guò)固話系統(tǒng)傳輸后,對(duì)信號(hào)參數(shù)產(chǎn)生的影響。
1 固定電話工作原理及噪聲類型
1.1 固定電話系統(tǒng)構(gòu)成
信號(hào)源在固定電話系統(tǒng)中經(jīng)過(guò)了復(fù)雜的傳輸過(guò)程。固定電話傳輸系統(tǒng)如圖1所示,說(shuō)話人發(fā)出的語(yǔ)音信號(hào)在電話機(jī)送話器處完成聲/電轉(zhuǎn)換形成模擬信號(hào),模擬信號(hào)經(jīng)過(guò)電話用戶線傳輸?shù)浇粨Q機(jī),在交換機(jī)處完成編碼(如有長(zhǎng)距離傳輸將會(huì)進(jìn)行光纜調(diào)制),形成數(shù)字信號(hào),數(shù)字信號(hào)經(jīng)過(guò)傳輸信道(光纜或同軸電纜)傳輸后進(jìn)入另一交換機(jī),在交換機(jī)處完成譯碼,數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào),再通過(guò)電話用戶線將模擬信號(hào)傳輸?shù)诫娫挋C(jī),在電話機(jī)受話器完成電/聲轉(zhuǎn)換,最后傳入接收人耳中。
1.2 信號(hào)失真及噪聲產(chǎn)生原因
固話傳輸系統(tǒng)產(chǎn)生的失真和噪聲類型主要包括頻率失真、非線性失真、量化失真以及傳輸線路噪聲[3]。
(1) 頻率失真
考慮到人的聽(tīng)覺(jué)系統(tǒng)和信道傳輸?shù)奶攸c(diǎn),電話機(jī)在發(fā)送端和接收端有不同頻響的傳輸特性,從而產(chǎn)生頻率失真。如圖2(a)、圖2(b)所示。
(2) 非線性失真
由于送(受)話器質(zhì)量不佳、發(fā)送端(接收端)放大器的饋電電壓不夠或工作點(diǎn)選擇不當(dāng)、自動(dòng)增益控制電路設(shè)計(jì)不佳等問(wèn)題,將會(huì)導(dǎo)致最終接收到的語(yǔ)音信號(hào)產(chǎn)生非線性失真,直接導(dǎo)致輸出信號(hào)產(chǎn)生新的頻率成分。
(3) 量化噪聲
通過(guò)聲/電轉(zhuǎn)換后的模擬信號(hào)在交換機(jī)處將要進(jìn)行信源編碼和信道編碼,以適應(yīng)光纜或同軸電纜傳輸。其中,在進(jìn)行信源編碼時(shí),我國(guó)對(duì)固話語(yǔ)音信號(hào)采用A律13折線量化標(biāo)準(zhǔn),這是一種非均勻量化方式,它存在一定的量化誤差[4]。
最大相對(duì)量化誤差公式為:
[12 ? ΔμXSamples] (1)
式中:[Δμ]為量化間隔;[XSamples]為采樣值。
信源編碼輸出功率信噪比為:
[SNq=22(BfH)] (2)
式中:[B]為系統(tǒng)帶寬;[fH]為信號(hào)截止頻率。
(4) 傳輸線路噪聲
信號(hào)在線路中傳輸,容易受到外界噪聲的干擾,包括由電火花引起的脈沖噪聲、相鄰電臺(tái)或電子設(shè)備引起的窄帶噪聲、一些電阻性元器件引起的熱噪聲等。傳輸線路主要包括連接用戶電話機(jī)與交換機(jī)的電話用戶線,以及連接交換機(jī)的光纜或同軸電纜。由于目前數(shù)字信號(hào)在光纜中傳輸幾乎可以達(dá)到無(wú)損的狀態(tài),傳輸線路噪聲主要在電話用戶線上產(chǎn)生。
錄音過(guò)程中接收端電話用戶線受到相鄰電子設(shè)備影響,引起的噪聲如圖3所示。
圖3 典型傳輸線路噪聲
2 語(yǔ)音基本參數(shù)比較
2.1 語(yǔ)音數(shù)據(jù)庫(kù)
實(shí)驗(yàn)所采用的語(yǔ)音數(shù)據(jù)為課題組實(shí)驗(yàn)室錄制,錄音過(guò)程中,麥克風(fēng)與固定電話同時(shí)錄音。語(yǔ)音庫(kù)包含400名說(shuō)話人,其中男性200人,女性200人。
錄音內(nèi)容包括3段數(shù)字語(yǔ)音和4段文本語(yǔ)音,數(shù)字語(yǔ)音包含0~9共10個(gè)孤立的阿拉伯?dāng)?shù)字,文本T1共計(jì)392個(gè)漢字,文本T2共計(jì)231個(gè)漢字,文本T3共計(jì)289個(gè)漢字,文本T4共計(jì)680個(gè)漢字。
采樣頻率為16 000 Hz,16 b量化。
2.2 預(yù)處理
在進(jìn)行實(shí)驗(yàn)之前,對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理包括預(yù)加重、分幀和加窗。
預(yù)加重濾波器為:
[H(z)=1-αz-1] (3)
式中[α]取值為0.95。
分幀幀長(zhǎng)為512點(diǎn),約32 ms,幀移為256點(diǎn)。窗函數(shù)選用hamming窗,函數(shù)表達(dá)式如下:
[W(n)=0.54-0.46cos2πn(L-1),0≤n≤L-10,other ] (4)
2.3 語(yǔ)音無(wú)聲段
語(yǔ)音的無(wú)聲段基本可以認(rèn)為只有噪聲的存在。固話語(yǔ)音在無(wú)聲段有“滋滋”的噪聲,而麥克風(fēng)語(yǔ)音的無(wú)聲段保持靜音。如圖4(a)所示,為一段固話無(wú)聲段的語(yǔ)音波形圖,圖4(b)為同時(shí)錄制的一段麥克風(fēng)無(wú)聲段的語(yǔ)音波形圖。
從圖4中可以明顯看出,固話無(wú)聲段語(yǔ)音的波形振幅明顯比麥克風(fēng)大,這說(shuō)明固話語(yǔ)音中存在較大的噪聲。兩者除了波形振幅有明顯差別外,在固話語(yǔ)音信號(hào)中,還存在能量較高的間歇脈沖。
通過(guò)對(duì)固話噪聲產(chǎn)生的原因以及噪聲的性質(zhì)進(jìn)行分析,持續(xù)噪聲的特性與寬帶噪聲相近,它可能來(lái)源于信道傳輸過(guò)程中產(chǎn)生的熱噪聲以及信源編碼過(guò)程中產(chǎn)生的量化噪聲。
短時(shí)脈沖噪聲的來(lái)源比較復(fù)雜,可能來(lái)自于電話用戶線的干擾或電話機(jī)聲/電(電/聲)轉(zhuǎn)換器的影響。
固話語(yǔ)音信號(hào)中存在的噪聲對(duì)信號(hào)產(chǎn)生的影響不僅體現(xiàn)在時(shí)域參數(shù)上,在倒譜域的影響也較為明顯。通過(guò)對(duì)圖4(a)中的固話無(wú)聲段語(yǔ)音信號(hào)進(jìn)行倒譜域研究分析,發(fā)現(xiàn)該信號(hào)的倒譜波形存在明顯的峰值。
如圖5(a)所示,在固話無(wú)聲段的倒譜波形圖上,存在明顯的假峰值,而麥克風(fēng)無(wú)聲段的倒譜圖中則沒(méi)有峰值。通常情況下濁音信號(hào)的周期性激勵(lì)能夠形成倒譜峰值。說(shuō)話人發(fā)清音或無(wú)聲時(shí),沒(méi)有周期性激勵(lì),理論上不會(huì)出現(xiàn)峰值[5]。在固話無(wú)聲段的倒譜波形中出現(xiàn)峰值,說(shuō)明該語(yǔ)音信號(hào)中存在周期噪聲。
經(jīng)過(guò)大量的實(shí)驗(yàn)和觀察,發(fā)現(xiàn)固話無(wú)聲段的倒譜波形中普遍存在假峰值。噪聲產(chǎn)生具體原因還需要進(jìn)一步探索。
2.4 語(yǔ)音段
人在聽(tīng)覺(jué)上,對(duì)固話語(yǔ)音和麥克風(fēng)語(yǔ)音存在一定的差異,主要原因是不同信道語(yǔ)音的音色不同。
根據(jù)聲學(xué)理論,聲音是由聲帶發(fā)出的一系列頻率、振幅不同的振動(dòng)復(fù)合而成,主要包括基音以及頻率為基音整數(shù)倍的泛音。說(shuō)話人的音色由泛音的多少以及泛音之間的相對(duì)強(qiáng)度決定,音色反映到頻域即為說(shuō)話人語(yǔ)音頻譜曲線的包絡(luò)[6]。
圖6(a)為固話語(yǔ)音數(shù)字8(b?。┑牟ㄐ螆D,圖6(b)上半部分為一幀固話語(yǔ)音,下半部分為一幀麥克風(fēng)語(yǔ)音的對(duì)數(shù)譜波形圖。語(yǔ)音幀對(duì)應(yīng)的范圍介入標(biāo)線Star與End之間。
從圖6中可以看出,麥克風(fēng)語(yǔ)音和固話語(yǔ)音在頻譜特征上也存在明顯的差異。在3 500 Hz以上頻段,固話語(yǔ)音的振幅較低,頻譜曲線較為平坦,沒(méi)有明顯的峰值。在200~3 500 Hz頻段,固話語(yǔ)音和麥克風(fēng)語(yǔ)音頻譜曲線的波峰位置幾乎一致,特別是前7個(gè)諧波波峰,峰值明顯且峰值對(duì)應(yīng)頻率一致。但是兩者之間的相對(duì)強(qiáng)度不一致,從而導(dǎo)致頻譜包絡(luò)不一致,其他語(yǔ)音段也普遍存在這種現(xiàn)象。
造成麥克風(fēng)語(yǔ)音和固話語(yǔ)音頻譜曲線產(chǎn)生差異的原因在于固話傳輸系統(tǒng)在發(fā)送(接收)端的頻率響應(yīng)特征以及噪聲的影響。各次諧波之間的相對(duì)強(qiáng)度不一致,直接影響語(yǔ)音的音色以及倒譜特征參數(shù)的可靠性。
3 語(yǔ)音特征參數(shù)比較
3.1 特征參數(shù)
Mel頻率倒譜系數(shù)(Mel?Frequency Cepstral Coefficients,MFCC)是說(shuō)話人識(shí)別中較為常用的特征參數(shù)。它是基于人耳聽(tīng)覺(jué)特性的特征參數(shù),由于人耳對(duì)聲音的感知與聲音的頻率并不是成線性關(guān)系,采用Mel頻率更符合人耳的聽(tīng)覺(jué)特性。
Mel頻率與實(shí)際頻率之間基本成對(duì)數(shù)關(guān)系,可以用公式(5)表示:
[fmel=2 595log(1+f700)] (5)
其函數(shù)曲線如圖7所示,可以看出在Mel頻率和實(shí)際頻率在1 000 Hz以下近似呈線性分布關(guān)系,在1 000 Hz以上接近對(duì)數(shù)分布關(guān)系。
圖7 實(shí)際頻率與Mel頻率對(duì)應(yīng)關(guān)系曲線
MFCC參數(shù)的計(jì)算過(guò)程如圖8所示,具體步驟[7]為:
(1) 對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、分幀、加窗;
(2) 對(duì)分幀后的每幀信號(hào)做FFT運(yùn)算,得到該每幀信號(hào)的幅度譜;
(3) 將線性頻率尺度轉(zhuǎn)化為Mel頻率尺度,并在Mel頻率軸上配置[L]個(gè)通道的三角濾波器組,取每個(gè)三角形濾波器頻率帶寬內(nèi)所有信號(hào)的加權(quán)幅度譜作為某個(gè)帶通濾波器的輸出;
(4) 對(duì)每個(gè)濾波器的輸出做對(duì)數(shù)運(yùn)算;
(5) 進(jìn)一步做離散余弦變換(DCT),得到一幀MFCC矢量,所有短時(shí)幀的輸出集合作為MFCC特征矢量序列。
當(dāng)噪聲和語(yǔ)音同時(shí)存在時(shí),一個(gè)純音可以被以它為中心頻率且具有一定帶寬的連續(xù)噪音所掩蔽,相應(yīng)的帶寬稱為臨界帶寬[8?9]。理論臨界帶寬公式為:
[BWc=25+75[1+1.4(fc1 000)2]0.69] (6)
式中[fc]為中心頻率。
臨界頻率帶寬隨著頻率的變化而變化,并且與Mel頻率的增長(zhǎng)是一致的,在1 000 Hz下大致呈線性分布,帶寬為100 Hz左右,在1 000 Hz以上呈對(duì)數(shù)增長(zhǎng)。類似臨界頻帶的劃分,可以將頻帶劃分成一系列三角形的濾波器序列,即Mel濾波器組,如圖9所示。
通常情況下,Mel濾波器的個(gè)數(shù)由信號(hào)的截止頻率決定,濾波器通常采用三角濾波器,但是也可以采用正弦濾波器等[9]。
三角濾波器的個(gè)數(shù)直接決定了每個(gè)濾波器的中心頻率、濾波器實(shí)際帶寬以及中心頻率對(duì)應(yīng)的臨界帶寬。實(shí)際帶寬與臨界帶寬的匹配程度將會(huì)直接影響MFCC參數(shù)的精度。
當(dāng)信號(hào)的采樣頻率為16 000 Hz時(shí)(最高有效頻率為8 000 Hz),分別在Mel頻率軸上配置不同個(gè)數(shù)的三角濾波器。圖10為Mel濾波器組分別取24個(gè),36個(gè),48個(gè),64個(gè)濾波器時(shí),三角濾波器實(shí)際帶寬與中心頻率對(duì)應(yīng)的臨界帶寬曲線,實(shí)線為臨界帶寬曲線,星號(hào)線為實(shí)際帶寬曲線。
Mel濾波器個(gè)數(shù)較少時(shí),三角濾波器實(shí)際帶寬大于臨界帶寬,三角濾波器的平均效應(yīng)明顯,精度降低;濾波器個(gè)數(shù)較多時(shí),三角濾波器實(shí)際帶寬小于臨界帶寬,三角濾波器的輸出結(jié)果不穩(wěn)定,抗干擾性較差。
當(dāng)信號(hào)的采樣頻率為16 000 Hz時(shí),取48個(gè)濾波器構(gòu)成Mel濾波器組,實(shí)際帶寬與臨界帶寬在低頻部分較為合適。
若梅爾頻率域三角濾波器輸出的頻譜輪廓線與原始頻譜的輪廓線吻合較好,則求取的MFCC特征參數(shù)能夠反映說(shuō)話人的個(gè)性音色,否則就會(huì)產(chǎn)生偏差。圖11為一幀麥克風(fēng)語(yǔ)音與一幀固話語(yǔ)音的Mel濾波器組輸出的幅值波形圖,所使用的語(yǔ)音幀與圖6相同。
從圖11中可以看出,麥克風(fēng)語(yǔ)音和固話語(yǔ)音的前20個(gè)濾波器輸出(對(duì)應(yīng)的實(shí)際頻率即1 300 Hz以下部分),波形曲線較為接近。在第31個(gè)以上,即實(shí)際頻率3 000 Hz以上的高頻部分,兩者差異較大。這與前文提到的頻譜域參數(shù)比較結(jié)果一致。
當(dāng)原始信號(hào)采樣頻率為16 000 Hz時(shí),最高有效頻率為8 000 Hz。根據(jù)公式(5),實(shí)際頻率8 000 Hz對(duì)應(yīng)的Mel頻率為2 840,在Mel頻率軸上設(shè)置48個(gè)濾波器組,等同于將Mel頻率等間隔劃分為48個(gè)頻帶。
根據(jù)Mel濾波器組以及語(yǔ)音信號(hào)倒譜的性質(zhì),可以將Mel濾波器組的輸出幅值波形看作是一個(gè)采樣頻率為[fm,]采樣間隔[fc]為[fmL]的信號(hào),其中[fm]是原始信號(hào)最高有效頻率對(duì)應(yīng)的Mel頻率,[L]為濾波器個(gè)數(shù)。
在信號(hào)的倒譜域中,周期是以頻率域中振幅譜曲線起伏變化的間距來(lái)度量,間距越大,周期越長(zhǎng),在倒譜域中的“頻率”越低;間距越小,周期越短,在倒譜域中的“頻率”越高。
經(jīng)典的傅里葉變換理論在Mel頻率域上同樣適用。當(dāng)[fm]為2 840時(shí),若Mel頻率的采樣間隔[fc]為1,倒譜頻率間隔為[12 840]。
當(dāng)設(shè)置[L]個(gè)濾波器時(shí),Mel頻率域的采樣間隔[fc]為[fmL,]相應(yīng)的倒譜頻率間隔為[fcfm。]因此,每一維MFCC特征參數(shù)之間的頻率間隔為[fcfm,]可以認(rèn)為每一維特征參數(shù)包含[fc]個(gè)采樣點(diǎn)。
第零維特征參數(shù)[MFCC0]對(duì)應(yīng)Mel頻譜曲線的均值(直流分量),第[n]維特征參數(shù)[MFCCn ]對(duì)應(yīng)Mel倒譜頻率范圍為[[(n-1)?fc+1,n?fc-1],]其中[1≤n≤L。]
每個(gè)Mel倒譜頻率點(diǎn)對(duì)應(yīng)一個(gè)Mel頻率,第[k]個(gè)Mel倒譜頻率點(diǎn)對(duì)應(yīng)的Mel頻率為:
[fkmel=fkMFCC*fm,1 3.2 評(píng)價(jià)方法——[F]比 對(duì)于某一維單個(gè)參數(shù)而言,可以用[F]比表征它在說(shuō)話人識(shí)別中的有效性。傳統(tǒng)[F]比的意義在于同一說(shuō)話人的不同語(yǔ)音會(huì)在參數(shù)空間映射出不同的點(diǎn)。若對(duì)同一說(shuō)話人這些點(diǎn)分布比較集中,則[F]比值較??;對(duì)于不同說(shuō)話人特征點(diǎn)相距較遠(yuǎn),[F]比值較大[9]。[F=不同說(shuō)話人特征參數(shù)均值的方差同一說(shuō)話人特征方差的均值=<[μi-μ]2>i<[x(i)a-μi]2>a,i] (8)
式中:[·i]是指對(duì)不同說(shuō)話人作平均;[·a]是指對(duì)某說(shuō)話人各幀的語(yǔ)音特征做平均;[xia]為第[i]個(gè)說(shuō)話人的第[a]幀的語(yǔ)音特征。
[μi = xiaa]
是第[i]個(gè)說(shuō)話人的各幀特征的估計(jì)平均值,而:
[μ = μii]
是所有說(shuō)話人的[μi]的均值。
根據(jù)經(jīng)典的[F]比理論,當(dāng)僅考慮信道差異時(shí),同一說(shuō)話人相同語(yǔ)音但傳輸信道不同,參數(shù)分布差異只來(lái)自于信道的影響。[F]比越大則說(shuō)明特征參數(shù)受到信道的影響越大。
[F信道=不同信道特征參數(shù)均值的方差相同信道下特征方差的均值] (9)
3.3 特征參數(shù)受影響情況
實(shí)驗(yàn)選取100名說(shuō)話人語(yǔ)音數(shù)據(jù),其中男性50人,女性50人。樣本內(nèi)容為5段內(nèi)容、長(zhǎng)度不同的短文本。
實(shí)驗(yàn)舍棄第零維系數(shù) [10],選取第1~30維作為比較對(duì)象。第[i]維MFCC系數(shù)記作[Ci,]第[i]維系數(shù)的[F]比值記作[Fi。]
如圖12所示為所有說(shuō)話人30維MFCC系數(shù)[F]比的統(tǒng)計(jì)數(shù)據(jù)。從圖中可以明顯地看出,語(yǔ)音信號(hào)在通過(guò)固話系統(tǒng)傳輸后,各維MFCC系數(shù)都受到了一定的影響,[F]比超過(guò)0.1說(shuō)明相應(yīng)維數(shù)的麥克風(fēng)語(yǔ)音特征參數(shù)與固話語(yǔ)音特征參數(shù)差異較大,該頻率范圍內(nèi)的語(yǔ)音信號(hào)經(jīng)過(guò)固話傳輸后受到影響相對(duì)較大。
在30維參數(shù)中,[F2]最大,說(shuō)明固話語(yǔ)音的第2維MFCC系數(shù)與麥克風(fēng)語(yǔ)音的第2維MFCC系數(shù)差異最大,第2維MFCC特征參數(shù)受到影響最大。
[C2]的Mel倒譜頻率范圍約為[[592 840,1172 840]],對(duì)應(yīng)的Mel頻率范圍約為[[59,117]]。根據(jù)公式(5),該Mel頻率范圍對(duì)應(yīng)的實(shí)際頻率范圍為[37.6 Hz,76.6 Hz]。說(shuō)明固話語(yǔ)音與麥克風(fēng)語(yǔ)音在實(shí)際頻率為[37.6 Hz,76.6 Hz]的頻率成分附近信號(hào)差異較大。
除了[F2]外,[F7,][F8,][F12]值也較大,對(duì)應(yīng)實(shí)際頻率范圍為[258.3 Hz,308.9 Hz],[309.8 Hz,364.1 Hz],[545.1 Hz,612.0 Hz]頻率成分附近的語(yǔ)音信號(hào),受到固話傳輸?shù)挠绊戄^大。
從整體趨勢(shì)上來(lái)看,高維系數(shù)相比低維系數(shù)受到的影響更小。
倒譜域中的低維部分對(duì)應(yīng)于頻率曲線的慢周期(長(zhǎng)周期)變化,高維部分對(duì)應(yīng)于頻率曲線的快周期(短周期)變化。聲道響應(yīng)曲線為慢周期變化,在倒譜域中主要分布在低維部分。
由于語(yǔ)音信號(hào)在經(jīng)過(guò)固話信道傳輸后,原始的聲道響應(yīng)特征受到固話信道的影響,產(chǎn)生了畸變,所以固話語(yǔ)音信號(hào)與麥克風(fēng)語(yǔ)音信號(hào)的特征參數(shù)在低維部分差異較大。并且信號(hào)經(jīng)過(guò)DCT變換后,能量主要集中在低維部分,高維部分參數(shù)能量值較小,相對(duì)差異也較小。
如圖13和圖14所示為不同性別說(shuō)話人[F]比值對(duì)比圖??梢钥闯?,不同性別說(shuō)話人各維MFCC特征參數(shù)受到影響的程度存在差別。
男性說(shuō)話人各維MFCC特征參數(shù)的[F]比值與女性說(shuō)話人的[F]比值相比,普遍較大。其中,男性說(shuō)話人的[F2]最大,且[F]比超過(guò)0.1的維數(shù)達(dá)到23個(gè)。
女性說(shuō)話人各維MFCC特征參數(shù)[F]比中,[F2]最大,[F7,][F8]也相對(duì)較大,[F]比值超過(guò)0.1的維數(shù)僅有9個(gè)。
不同性別說(shuō)話人在總體趨勢(shì)上基本保持一致,即低維系數(shù)的[F]比值較大,[F2,][F7,][F8]都有較大的值。
在高維MFCC特征參數(shù)的[F]比上,女性說(shuō)話人的值明顯較小,男性說(shuō)話人高維系數(shù)的偶數(shù)項(xiàng)[F]比值明顯小于奇數(shù)項(xiàng)。
由于不同性別說(shuō)話人的發(fā)聲器官有一定的區(qū)別,男性的聲帶寬而長(zhǎng),發(fā)出的聲音較為渾厚而低沉,女性的聲帶窄而短,發(fā)出的聲音清亮而尖銳。
不同性別說(shuō)話人在頻譜能量分布、基音周期范圍、聲道響應(yīng)曲線等均存在差異,導(dǎo)致男女說(shuō)話人的MFCC系數(shù)分布不同,在通過(guò)固話信道傳輸后,語(yǔ)音信號(hào)包含較多低頻成分的男性說(shuō)話人語(yǔ)音,相對(duì)頻率成分較高的女性說(shuō)話人語(yǔ)音,受到影響更為明顯。
4 總 結(jié)
原始語(yǔ)音信號(hào)經(jīng)過(guò)固話信道傳輸后,語(yǔ)音的音色產(chǎn)生了變化,從而影響了說(shuō)話人識(shí)別系統(tǒng)的識(shí)別率。由于固話系統(tǒng)發(fā)送(接收)端的頻響特性以及信道中存在的寬帶噪聲和共振型噪聲,固話語(yǔ)音信號(hào)的時(shí)域、頻域特性都產(chǎn)生了畸變。同一說(shuō)話人的固話語(yǔ)音與麥克風(fēng)語(yǔ)音在3 000 Hz以下頻率部分,諧波分布位置基本相同,但是諧波的相對(duì)大小不一致,從而影響頻譜包絡(luò)曲線,導(dǎo)致音色的差異。
在對(duì)MFCC特征參數(shù)進(jìn)行提取分析并做[F]比實(shí)驗(yàn)時(shí)發(fā)現(xiàn),固話語(yǔ)音的第二維MFCC參數(shù)與麥克風(fēng)語(yǔ)音的差異最大,低維MFCC系數(shù)相對(duì)高維MFCC系數(shù)差異較大,女性說(shuō)話人MFCC系數(shù)的差異低于男性說(shuō)話人。
從MFCC的提取過(guò)程可以看出,倒頻譜將聲道響應(yīng)和聲源激勵(lì)響應(yīng)分離,聲道響應(yīng)大多集中在倒譜參數(shù)的低維部分,聲源激勵(lì)響應(yīng)相對(duì)集中在倒譜參數(shù)的高維部分。
本文對(duì)固話語(yǔ)音相對(duì)麥克風(fēng)語(yǔ)音的時(shí)域、頻域、倒譜特征域的相關(guān)參數(shù)進(jìn)行了分析,對(duì)于信號(hào)失真的處理方法有待進(jìn)一步分析研究。
參考文獻(xiàn)
[1] 陳偉.信道失配條件下話者確認(rèn)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2011.
[2] BURGET L, MATEJKA P, SCHWARZ P, et al. Analysis of feature extraction and channel compensation in a GMM speaker recognition system [J]. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(7): 1979?1986.
[3] 郵電部第一研究所電話機(jī)研究室.電話機(jī)技術(shù)講座[J].電信快報(bào),1994(1):26?28.
[4] 樊昌信,曹麗娜.通信原理[M].北京:國(guó)防工業(yè)出版社,2002.
[5] KIM C, STERN R M. Power?normalized cepstral coefficients (PNCC) for robust speech recognition [C]// 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto: IEEE, 2012, 4101?4104.
[6] 方瑜.語(yǔ)音增強(qiáng)相關(guān)問(wèn)題研究[D].北京:北京郵電大學(xué),2012.
[7] 高二中.對(duì)話電話語(yǔ)音的話者確認(rèn)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2011.
[8] 劉兵,孫超,楊益新,等.被動(dòng)聲納目標(biāo)臨界頻帶頻譜能量的特征提取[J].聲學(xué)技術(shù),2009,28(2):132?134.
[9] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2011.
[10] REYNOLDS D A. Experimental evaluation of features for robust speaker identification [J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(4): 639?643.