譚梓煒
(深圳市創(chuàng)客工場(chǎng)科技有限公司 廣東深圳 518000)
?
語(yǔ)音改變技術(shù)及其原理
譚梓煒
(深圳市創(chuàng)客工場(chǎng)科技有限公司廣東深圳518000)
語(yǔ)音信號(hào)處理技術(shù)是語(yǔ)音處理領(lǐng)域中新近發(fā)展起來(lái)的一個(gè)學(xué)科分支,本文主要研究了語(yǔ)音信號(hào)處理技術(shù)中的兩個(gè)主要:內(nèi)容語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)和說(shuō)話人特征改變技術(shù)。語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)就是在不改變語(yǔ)音音調(diào)并保證良好音質(zhì)的前提下,隨意地改變語(yǔ)音播放速度,就仿佛說(shuō)話人自己在改變說(shuō)話速度一樣。說(shuō)話人特征改變技術(shù)是語(yǔ)音處理中一個(gè)比較新的交叉邊緣分支,主要是通過(guò)對(duì)合成語(yǔ)音進(jìn)行適當(dāng)語(yǔ)音參數(shù)控制和調(diào)整來(lái)實(shí)現(xiàn)的。在此基礎(chǔ)上得出了人耳對(duì)基音同步的感知存在一定的容差從而改進(jìn)了二次譜提取基頻算法,提高了基頻提取的準(zhǔn)確度,進(jìn)一步提出了一種新的基于改進(jìn)二次譜的語(yǔ)音時(shí)長(zhǎng)規(guī)整算法。該算法在保持規(guī)整后語(yǔ)音質(zhì)量的同時(shí),有效降低了整體計(jì)算復(fù)雜度。針對(duì)說(shuō)話人特征改變技術(shù),提出了一種基于重采樣的基頻改變算法,該算法簡(jiǎn)單有效,整體計(jì)算復(fù)雜度較低。
語(yǔ)音信號(hào) 時(shí)長(zhǎng)規(guī)整 基音檢測(cè) 頻譜
1.研究背景及選題意義
語(yǔ)音是人類(lèi)交流的最直接的方式,語(yǔ)音信號(hào)在社會(huì)交流、信息傳輸中占有重要的地位。其中,變聲技術(shù)是一個(gè)備受關(guān)注的內(nèi)容。利用變聲技術(shù)可以將一個(gè)人說(shuō)出的話通過(guò)處理后變成與自身不同的特點(diǎn),從而聽(tīng)起來(lái)像是另一個(gè)人說(shuō)出來(lái)的一樣。比如一個(gè)年輕人說(shuō)出的話聽(tīng)著像老人,男人聽(tīng)著像女人,這看上去非常的有趣。其實(shí),變聲技術(shù)的用途十分廣泛,比如電視節(jié)目中的配音,機(jī)密信息的語(yǔ)音偽裝等。
2.國(guó)內(nèi)外研究動(dòng)態(tài)
(1)語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)研究動(dòng)態(tài)
在20世紀(jì)50年代的時(shí)候,就已經(jīng)開(kāi)始有人研究語(yǔ)音時(shí)長(zhǎng)的規(guī)整技術(shù),并且已經(jīng)有這樣一種想法提出:即在保證音色不發(fā)生改變的狀況下,將語(yǔ)音播放的速度進(jìn)行改變。進(jìn)入數(shù)字時(shí)代后,做到了改變語(yǔ)音播放速度的同時(shí),不改變說(shuō)話人特征的要求[2]。其主要方法有三類(lèi):時(shí)域法、頻域法和參數(shù)法。
(2)說(shuō)話人特征改變技術(shù)研究動(dòng)態(tài)
對(duì)于將說(shuō)話的人的特征發(fā)生改變的這一技術(shù)的研究,首先需要了解說(shuō)話的人的特征。目前有兩種方法可以實(shí)現(xiàn)使說(shuō)話人特征發(fā)生改變:參數(shù)法和非參數(shù)法。第一種是首先獲得說(shuō)話的人的一些參數(shù),然后憑借這些特征參數(shù)改變說(shuō)話人的相應(yīng)特征;后者則建立不同說(shuō)話人之間的映射關(guān)系[3]。
1.語(yǔ)音信號(hào)處理基本理論
語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)的作用是在確保說(shuō)話人的語(yǔ)音特征不發(fā)生變化的狀況下,能夠做到將語(yǔ)音播放的速度產(chǎn)生變化。這里面包括的算法有三種類(lèi)型:頻域法、參數(shù)法以及時(shí)域法[4]。
2.語(yǔ)音信號(hào)的頻域特性
一段語(yǔ)音的短時(shí)譜的產(chǎn)生有兩個(gè)步驟,首先要對(duì)其分幀加窗,之后還要有傅里葉變換。一個(gè)隨機(jī)信號(hào)的頻譜與清音的短時(shí)譜是十分相似的。在濁音信號(hào)短時(shí)譜中,周期性特征較顯著,在短時(shí)譜中的凸起點(diǎn)的頻率與聲道諧振頻率具有較好的一致性。短時(shí)譜中的凸起點(diǎn)所對(duì)應(yīng)的頻率通常叫做共振頻率。共振峰有好幾種名稱(chēng),頻率低的通常被叫做第一共振峰,頻率高的通常被叫做第二共振峰。
3.語(yǔ)音信號(hào)的預(yù)處理
一般而言為了便于分析,要進(jìn)行高頻增強(qiáng)處理。能量損耗具有如下規(guī)律:由于語(yǔ)音信號(hào)中的功率譜每降低6dB,相應(yīng)的頻率就會(huì)增加兩倍,因此在預(yù)加重的過(guò)程中,通常在6dB/otc的前提下提高高強(qiáng)部分。預(yù)加重的方法一般有兩種:
硬件實(shí)現(xiàn)時(shí),可用6dB/oct梯度的高頻增強(qiáng)型濾波器,其傳遞函數(shù)為
在這個(gè)函數(shù)中a表示預(yù)加重系數(shù),通常取1或者比1小。
4.仿真實(shí)現(xiàn)
在研究仿真實(shí)現(xiàn)的過(guò)程中,可以錄制一段男聲語(yǔ)音來(lái)深入研究。對(duì)這段語(yǔ)音進(jìn)行兩次規(guī)整,規(guī)整因子F分別為2和0.7,即一個(gè)是壓縮處理,一個(gè)是拉伸處理。在設(shè)定幀長(zhǎng)時(shí)采用1024個(gè)采樣點(diǎn),ss設(shè)定為幀長(zhǎng)的一半。圖2-4—2-6描述的是重疊加算法里面原始語(yǔ)音信號(hào)以及F分別取2和0.7時(shí)的波形圖以及局部波形的放大圖。
圖2-4 原始語(yǔ)音波形圖
圖2-5 原始語(yǔ)音局部放大圖
圖2-6 F=2時(shí)波形
圖2-7 F=2時(shí)局部放大圖
1.人體語(yǔ)音信號(hào)的發(fā)聲機(jī)理
人體主要有6個(gè)發(fā)聲系統(tǒng),外界空氣經(jīng)過(guò)呼吸進(jìn)入肺部,聲帶受到氣流的沖擊后閉合[7]。不同的頻率聲波表現(xiàn)出來(lái)的就是不同的聲音特性,所以改變語(yǔ)音頻率是一種有效的說(shuō)話人特征改變技術(shù)。
(1)算法原理
這里介紹的是音頻改變的算法。當(dāng)放音機(jī)里面的放音速度發(fā)生變化時(shí),相應(yīng)的音高基頻會(huì)隨之發(fā)生變化,在這種情況下,基頻改變因子P 等同于變速因子S ,即P = S 。如果輸入的語(yǔ)音用x(n)表示,根據(jù)變速因子S(當(dāng)S > 1時(shí),此時(shí)播放的速度就增加,當(dāng)S <1的時(shí)候,此時(shí)播放的速度就減少),播放的速度發(fā)生變化之后的的語(yǔ)音表示為( ) x n,那么
其中[]表示下取整運(yùn)算。
(2)仿真實(shí)現(xiàn)
下面是一段男聲發(fā)“我在俄國(guó)見(jiàn)到的景物”的語(yǔ)音圖形。根據(jù)圖3.1的流程圖,當(dāng)基頻增大至變成原始的基頻的1.5倍時(shí),對(duì)進(jìn)行的仿真實(shí)驗(yàn)進(jìn)行了相關(guān)的研究,依據(jù)取得的實(shí)驗(yàn)結(jié)果來(lái)討論實(shí)驗(yàn)的合理性等等。
(1)改變播放速度調(diào)整基頻
圖3-2 一段男聲的語(yǔ)音時(shí)域波形圖
圖3-3 改變播放速度后的時(shí)域波形圖(P=1.5)
圖3-4 幀語(yǔ)音的原始時(shí)域波形
圖3-5 播放速度加快1.5倍后的該幀波形
根據(jù)圖3-2中所表示的波形圖可以看出,波形大體上表現(xiàn)為一幀信號(hào)就是4個(gè)周期,拿總長(zhǎng)度除以周期數(shù)得到這段語(yǔ)音的周期時(shí)長(zhǎng)是6ms.相應(yīng)的,根據(jù)圖3-5中所表示的波形圖可以看出,波形的周期數(shù)也是4,拿總的長(zhǎng)度除以周期數(shù)就得到對(duì)應(yīng)的周期時(shí)長(zhǎng)大約是4ms。將得到的兩個(gè)音頻相除,很容易可以看出這種做法可以很好地改變濁音信號(hào)相應(yīng)的基頻。
本文一共對(duì)兩個(gè)方面的問(wèn)題進(jìn)行了研究,第一個(gè)是關(guān)于語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù),第二個(gè)是關(guān)于使說(shuō)話人的特征發(fā)生變化的技術(shù)。雖然這兩種技術(shù)在文章里面是分章節(jié)介紹的,并沒(méi)有放在一起研究,但是這并不代表這兩種技術(shù)之間沒(méi)有關(guān)系,其實(shí),這兩種技術(shù)之間的聯(lián)系十分密切,前者的深入研究是后者得以實(shí)現(xiàn)的關(guān)鍵,是后者成功的基礎(chǔ)。
[1]楊瑩春. 說(shuō)話人特征及模型研究[D]. 浙江大學(xué),博士后論文,2003.
[2]胡航. 語(yǔ)音信號(hào)處理[M]. 哈爾濱哈爾濱工業(yè)大學(xué)出版社,2000.
[3]陳硯圃. 聽(tīng)覺(jué)感知及其在語(yǔ)音增強(qiáng)中的應(yīng)用研究[D]. 西安交通大學(xué),博士學(xué)位論文,2001.
[4]張?zhí)祚敚?張戰(zhàn), 權(quán)進(jìn)國(guó)等. 語(yǔ)音信號(hào)基音檢測(cè)的二次譜方法[J].計(jì)算機(jī)應(yīng)用,2005.
{5]趙力. 語(yǔ)音信號(hào)處理[M] ,北京:機(jī)械工業(yè)出版社,2003.