亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于受限玻爾茲曼機(jī)的語(yǔ)音帶寬擴(kuò)展

        2016-10-14 01:34:39王迎雪趙勝輝于瑩瑩匡鏡明
        電子與信息學(xué)報(bào) 2016年7期
        關(guān)鍵詞:玻爾茲曼特征參數(shù)高階

        王迎雪 趙勝輝 于瑩瑩 匡鏡明

        ?

        基于受限玻爾茲曼機(jī)的語(yǔ)音帶寬擴(kuò)展

        王迎雪 趙勝輝*于瑩瑩 匡鏡明

        (北京理工大學(xué)信息與電子學(xué)院 北京 100081)

        語(yǔ)音帶寬擴(kuò)展是為了提高語(yǔ)音質(zhì)量,利用語(yǔ)音低頻和高頻之間的相關(guān)性重構(gòu)語(yǔ)音高頻的一種技術(shù)。高斯混合模型法是語(yǔ)音帶寬技術(shù)中被廣泛應(yīng)用的一種方法,但是,由于該方法假設(shè)語(yǔ)音高頻、低頻服從高斯分布,且只表征了語(yǔ)音低頻、高頻之間的線性關(guān)系,從而導(dǎo)致合成的高頻語(yǔ)音出現(xiàn)失真。因此,該文提出一種基于受限玻爾茲曼機(jī)的方法,該方法利用兩個(gè)高斯伯努利受限玻爾茲曼機(jī)提取語(yǔ)音低頻和高頻中蘊(yùn)含的高階統(tǒng)計(jì)特性;并利用前饋神經(jīng)網(wǎng)絡(luò)將語(yǔ)音低頻高階統(tǒng)計(jì)特性參數(shù)映射為高頻高階統(tǒng)計(jì)特性參數(shù)。這樣,通過(guò)提取語(yǔ)音低頻和高頻中蘊(yùn)含的高階統(tǒng)計(jì)特性,該方法可以深層挖掘語(yǔ)音高頻和語(yǔ)音低頻之間的實(shí)際關(guān)系,從而更加準(zhǔn)確地模擬頻譜包絡(luò)分布,合成質(zhì)量更高的語(yǔ)音。客觀測(cè)試、主觀測(cè)試結(jié)果表明,該方法性能優(yōu)于傳統(tǒng)的高斯混合模型方法。

        語(yǔ)音帶寬擴(kuò)展;受限玻爾茲曼機(jī);前饋神經(jīng)網(wǎng)絡(luò);高斯混合模型

        1 引言

        由于窄帶電話語(yǔ)音的帶寬限制在300 Hz到3.4 kHz之間,因此,電話語(yǔ)音的自然度不夠,語(yǔ)音質(zhì)量有限,在一些對(duì)語(yǔ)音質(zhì)量要求高的場(chǎng)合,窄帶電話語(yǔ)音不能滿足人們的需求。這些不足可以通過(guò)引入寬帶語(yǔ)音(50 Hz~7 kHz)通信得以改善。目前,電話網(wǎng)絡(luò)的終端系統(tǒng)和寬帶通信之間還存在兼容性等問(wèn)題,寬帶語(yǔ)音通信還沒(méi)有被實(shí)際應(yīng)用到公共電話網(wǎng)絡(luò)系統(tǒng)中。因此,可以通過(guò)語(yǔ)音帶寬擴(kuò)展技術(shù)將窄帶語(yǔ)音擴(kuò)展成寬帶語(yǔ)音,達(dá)到提高語(yǔ)音質(zhì)量的目的。語(yǔ)音帶寬擴(kuò)展技術(shù)不需要對(duì)現(xiàn)有通信網(wǎng)絡(luò)的發(fā)射端和網(wǎng)絡(luò)進(jìn)行改變,利用語(yǔ)音低頻部分獲得語(yǔ)音高頻部分,然后將語(yǔ)音高頻部分與低頻部分疊加在一起,得到重構(gòu)后的寬帶語(yǔ)音。語(yǔ)音帶寬擴(kuò)展技術(shù)已被應(yīng)用于多種任務(wù),如語(yǔ)音識(shí)別[1],多播會(huì)議[2]等。

        目前,應(yīng)用最廣泛的語(yǔ)音帶寬擴(kuò)展算法是源濾波器模型法,該方法的3個(gè)主要內(nèi)容是:高頻頻譜包絡(luò)估計(jì)、高頻激勵(lì)信號(hào)的產(chǎn)生、能量調(diào)整。其中,高頻頻譜包絡(luò)估計(jì)是目前研究的重點(diǎn)。高頻頻譜包絡(luò)估計(jì)的方法主要包括碼本映射法[3, 4],線性映射法[5],分段線性映射法[6],高斯混合模型(Gaussian Mixture Model, GMM)法[7, 8],隱馬爾科夫模型(Hidden Markov Model, HMM)法[9, 10]和人工神經(jīng)網(wǎng)絡(luò)法[11, 12]等。其中,GMM方法由于具有良好的帶寬擴(kuò)展效果,得到了廣泛的應(yīng)用。而且,近年來(lái),許多學(xué)者在傳統(tǒng)GMM方法的基礎(chǔ)上,提出了許多改進(jìn)的方法。如文獻(xiàn)[13]利用最大后驗(yàn)概率準(zhǔn)測(cè)和矢量泰勒級(jí)數(shù)相結(jié)合的方法針對(duì)被噪聲污染的窄帶語(yǔ)音進(jìn)行語(yǔ)音帶寬擴(kuò)展。文獻(xiàn)[14]對(duì)比了時(shí)域平滑頻譜系數(shù)和梅爾頻譜系數(shù)的互信息,并將互信息較大的時(shí)域平滑頻譜系數(shù)作為GMM的輸入數(shù)據(jù),以此來(lái)估計(jì)高頻頻譜包絡(luò)。傳統(tǒng)GMM法需要對(duì)齊的低頻、高頻數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),且只能對(duì)固定的語(yǔ)音頻段進(jìn)行擴(kuò)展,針對(duì)以上不足,文獻(xiàn)[15]采用子頻帶頻譜模型提取語(yǔ)音特征參數(shù),并用非對(duì)齊的特征參數(shù)作為GMM模型的輸入數(shù)據(jù),實(shí)現(xiàn)了對(duì)任意語(yǔ)音頻段的帶寬擴(kuò)展。

        但是,GMM法成立的前提是假設(shè)低頻、高頻特征參數(shù)服從高斯分布。實(shí)際上,高、低頻特征參數(shù)并不符合GMM法中的假設(shè)關(guān)系,而且GMM法只發(fā)掘了低頻、高頻特征參數(shù)之間的線性關(guān)系,忽略了兩者之間的非線性關(guān)系,因此導(dǎo)致映射得到的高頻頻譜包絡(luò)特征參數(shù)存在誤差,合成的高頻語(yǔ)音存在失真。為了更好地挖掘和模擬低頻特征參數(shù)和高頻特征參數(shù)之間的線性和非線性關(guān)系,從而更加準(zhǔn)確地利用低頻特征參數(shù)估計(jì)高頻特征參數(shù),本文提出了一種基于受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)的高頻頻譜包絡(luò)估計(jì)方法。該方法利用兩個(gè)高斯伯努利受限玻爾茲曼機(jī)(Gaussian-Bernoulli RBM, GBRBM)和前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN)組成一個(gè)深度神經(jīng)網(wǎng)絡(luò),提取了高、低頻語(yǔ)音的高階統(tǒng)計(jì)特征信息,從而更好地發(fā)現(xiàn)和模擬了低頻特征參數(shù)和高頻特征參數(shù)之間的關(guān)系。主觀測(cè)試和客觀測(cè)試表明,相比傳統(tǒng)的GMM方法,該方法重構(gòu)的語(yǔ)音質(zhì)量更高。

        2 受限玻爾茲曼機(jī)

        受限玻爾茲曼機(jī)是一個(gè)具有兩層結(jié)構(gòu)的隨機(jī)神經(jīng)網(wǎng)絡(luò)。這兩層結(jié)構(gòu)中,一個(gè)為可見(jiàn)層,另外一個(gè)為隱含層??梢?jiàn)層與隱含層之間全連接,可見(jiàn)層內(nèi)的節(jié)點(diǎn)之間或者隱含層內(nèi)的節(jié)點(diǎn)之間相互無(wú)連

        接[16]。根據(jù)可見(jiàn)層和隱含層所對(duì)應(yīng)的建模單元類型的不同,受限制玻爾茲曼機(jī)有不同的構(gòu)成形式。當(dāng)可見(jiàn)層和隱含層的隨機(jī)變量都服從伯努利分布,即可見(jiàn)層和隱含層都由二值單元構(gòu)成時(shí),稱為伯努利-伯努利RBM(Bernoulli-Bernoulli RBM, BBRBM)。在語(yǔ)音帶寬擴(kuò)展系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是類似于線譜頻率(Line Spectral Frequency, LSF)的聲學(xué)特征,它們都是實(shí)數(shù)值的數(shù)據(jù),使用二值分布對(duì)其進(jìn)行建模并不合適。為使RBM能夠?qū)Φ讓勇晫W(xué)特征進(jìn)行學(xué)習(xí),將RBM可見(jiàn)單元建模為具有高斯噪聲的線性變量,而隱含層仍然由二值單元構(gòu)成,這種類型的RBM稱為高斯-伯努利RBM (Gaussian-Bernoulli RBM, GBRBM)[17]。

        GBRBM的能量函數(shù)定義為

        可見(jiàn)層和隱含層變量的聯(lián)合分布為

        3 受限玻爾茲曼機(jī)的語(yǔ)音帶寬擴(kuò)展

        在語(yǔ)音帶寬擴(kuò)展技術(shù)中,高頻頻譜包絡(luò)的估計(jì)是目前研究的重點(diǎn)。本文采用受限玻爾茲曼機(jī)進(jìn)行高頻頻譜包絡(luò)的估計(jì)。

        3.1 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)估計(jì)

        圖1給出了高頻頻譜估計(jì)的深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)。從圖1中可以看出,深度神經(jīng)網(wǎng)絡(luò)由一個(gè)低頻GBRBM、一個(gè)高頻GBRBM和FNNs組成。其中,低頻GBRBM和高頻GBRBM的作用是將低頻特征參數(shù)和高頻特征參數(shù)分別映射為它們的高階統(tǒng)計(jì)特征信息和; FNNs負(fù)責(zé)將低頻高階統(tǒng)計(jì)特征映射為高頻高階統(tǒng)計(jì)特征。在使用低頻GBRBM、高頻GBRBM和FNNs之前,首先要對(duì)它們的網(wǎng)絡(luò)參數(shù)進(jìn)行估計(jì)。參數(shù)的估計(jì)過(guò)程如圖1中虛線所示。

        圖1高頻頻譜包絡(luò)估計(jì)的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        估計(jì)低頻GBRBM的網(wǎng)絡(luò)參數(shù):將低頻語(yǔ)音的頻譜包絡(luò)特征參數(shù)(為維數(shù))作為GBRBM的輸入,采用CD法對(duì)其進(jìn)行非監(jiān)督訓(xùn)練,訓(xùn)練完成后得到低頻GBRBM的權(quán)值等參數(shù)。這樣,已知時(shí),可利用隱含節(jié)點(diǎn)的條件分布抽取隱含單元的樣值,。

        估計(jì)高頻GBRBM的網(wǎng)絡(luò)參數(shù):將高頻語(yǔ)音的特征參數(shù)(為維數(shù))作為GBRBM的輸入,利用CD法對(duì)其進(jìn)行訓(xùn)練,得到高頻GBRBM的網(wǎng)絡(luò)參數(shù)。這樣,已知時(shí),可利用隱含節(jié)點(diǎn)的條件分布抽取隱含單元的樣值,。

        估計(jì)FNNs的網(wǎng)絡(luò)參數(shù):將低頻GBRBM和高頻GBRBM隱含單元的樣值,分別作為FNNs的輸入、輸出數(shù)據(jù),對(duì)其進(jìn)行監(jiān)督訓(xùn)練,并通過(guò)最小化輸出和目標(biāo)向量之間的誤差估計(jì)出FNNs的權(quán)值和偏移量,其中為網(wǎng)絡(luò)層數(shù)。這樣,已知低頻高階特征參數(shù)時(shí),可利用訓(xùn)練好的FNNs獲得高頻高階特征參數(shù)。當(dāng)為2時(shí),如式(11):

        3.2 高頻頻譜包絡(luò)估計(jì)

        獲得低頻GBRBM, FNNs,高頻GBRBM的網(wǎng)絡(luò)參數(shù)以后,將訓(xùn)練好的低頻GBRBM, FNNs,高頻GBRBM 自底向上依次堆積搭建起來(lái),正向傳導(dǎo)低頻GBRBM, FNNs的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),反向傳導(dǎo)高頻GBRBM網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),從而實(shí)現(xiàn)低頻特征參數(shù)到高頻特征參數(shù)的映射,得到估計(jì)的高頻頻譜包絡(luò)。具體如下:

        采用概率值時(shí),

        這里,我們使用概率值。

        其次,把訓(xùn)練完成的FNNs看作通用的泛函映射函數(shù),對(duì)低頻語(yǔ)音信號(hào)的高階特征參數(shù)進(jìn)行映射,得到高頻語(yǔ)音的高階特征參數(shù);在重構(gòu)時(shí),當(dāng)FNNs層數(shù)為1,且使用概率值時(shí),

        結(jié)合式(4),式(11)和式(13)得

        4 實(shí)驗(yàn)與結(jié)果

        4.1語(yǔ)音數(shù)據(jù)庫(kù)及實(shí)驗(yàn)設(shè)置

        本文采用的數(shù)據(jù)庫(kù)包括NTT-AT漢語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)[20]、TIMIT語(yǔ)料庫(kù)和北京理工通信技術(shù)研究所和愛(ài)立信RCDCT (Research Center of Digital Communication Technology)共同錄制的漢語(yǔ)語(yǔ)音測(cè)試庫(kù)。NTT-AT漢語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)和RCDCT的漢語(yǔ)語(yǔ)音測(cè)試庫(kù)都包含96句男性和女性(4名女和4名男性)的發(fā)聲,每條語(yǔ)句的采樣率為16 kHz,數(shù)據(jù)格式為16位的PCM,每條語(yǔ)句的持續(xù)時(shí)間為8 s。TIMIT語(yǔ)料庫(kù)包含630個(gè)男性和女性的6300句發(fā)聲,由一個(gè)核心訓(xùn)練集(462個(gè)說(shuō)話人和4620條語(yǔ)句)和一個(gè)全測(cè)試集(168個(gè)說(shuō)話人和1344條語(yǔ)句)組成,其中每條語(yǔ)句的采樣率為16 kHz,數(shù)據(jù)格式為16位的PCM。其中,TIMIT語(yǔ)料庫(kù)的全測(cè)試集包含一個(gè)核心測(cè)試集(24個(gè)說(shuō)話人和192條語(yǔ)句)。本文的訓(xùn)練集共包含TIMIT語(yǔ)料庫(kù)的核心訓(xùn)練集、從NTT-AT漢語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)隨機(jī)選擇的64條語(yǔ)句和從RCDCT語(yǔ)料庫(kù)隨機(jī)選擇的64條語(yǔ)句。由于訓(xùn)練樣本集合與測(cè)試樣本集不能重復(fù),所以本文的測(cè)試集包含TIMIT語(yǔ)料庫(kù)的核心測(cè)試集合和2個(gè)漢語(yǔ)語(yǔ)料庫(kù)中沒(méi)有用于訓(xùn)練的所有語(yǔ)音樣本。

        特征參數(shù)提取時(shí),采樣率為16 kHz的寬帶語(yǔ)音首先分別通過(guò)高、低通濾波器,然后下采樣,得到低頻語(yǔ)音(0~4 kHz)和高頻語(yǔ)音(4~8 kHz)。然后對(duì)高、低頻語(yǔ)音分別進(jìn)行加漢明窗處理,幀長(zhǎng)為20 ms,幀移為10 ms,預(yù)加重的系數(shù)為0.97。高、低頻聲學(xué)特征參數(shù)分別使用10維的LSF和16維的LSF。LSF作為低頻GBRBM和高頻GBRBM的輸入數(shù)據(jù),在送入GBRBM訓(xùn)練前,需在整個(gè)訓(xùn)練集范圍內(nèi)對(duì)其進(jìn)行歸一化,使得每一維特征參數(shù)都滿足均值為0、方差為1的正態(tài)分布。

        高頻激勵(lì)信號(hào)的產(chǎn)生和能量增益調(diào)整也是重構(gòu)高頻語(yǔ)音時(shí)比較重要的問(wèn)題。由于AMR-WB+直接采用低頻激勵(lì)信號(hào)作為高頻激勵(lì)信號(hào)[21],并取得了很好的帶寬擴(kuò)展效果,因此,本文采用低頻激勵(lì)信號(hào)直接作為高頻激勵(lì)信號(hào)。采用文獻(xiàn)[22]中的碼本映射法對(duì)低頻激勵(lì)信號(hào)進(jìn)行能量增益調(diào)整。

        為了驗(yàn)證本文方法的性能,將本文方法與傳統(tǒng)GMM方法[7]進(jìn)行對(duì)比。GMM高斯模型中高斯分量的個(gè)數(shù)取為128,模型參數(shù)估計(jì)采用EM算法。GBRBM模型參數(shù)估計(jì)采用小批量(minibatch)的對(duì)比散度算法,每個(gè)批量的規(guī)模為128個(gè)訓(xùn)練樣本。對(duì)比散度算法在梯度下降的過(guò)程中使用一次的吉布斯采樣完成對(duì)權(quán)重的更新,參數(shù)更新的迭代步長(zhǎng)設(shè)為0.0001。對(duì)于低頻GBRBM,學(xué)習(xí)率為0.001,學(xué)習(xí)輪次(epoch)為225;對(duì)于高頻GBRBM,學(xué)習(xí)率為0.001,學(xué)習(xí)輪次為75;沖量值(momentum)在最初5輪設(shè)為0.5,然后增加至0.9;權(quán)值衰減因子為0.0002。對(duì)于低頻GBRBM模型,隱含層節(jié)點(diǎn)數(shù)設(shè)為200,而對(duì)于高頻GBRBM模型,隱含層節(jié)點(diǎn)數(shù)設(shè)為100。

        為了評(píng)價(jià)所提方法的性能,分別進(jìn)行了主觀評(píng)價(jià)、客觀評(píng)價(jià)及語(yǔ)譜圖比較,并且給出了不同帶寬擴(kuò)展方法的主觀測(cè)試結(jié)果、客觀測(cè)試結(jié)果以及語(yǔ)譜圖。主觀評(píng)價(jià)采用A/B測(cè)試,客觀評(píng)價(jià)采用COSH距離測(cè)度和均方根對(duì)數(shù)譜距離測(cè)度。

        4.2 客觀評(píng)價(jià)

        COSH距離測(cè)度的定義[23]為

        均方根對(duì)數(shù)譜距離(Root Mean Squared Log Spectral Distance, RMS-LSD):

        表1 COSH距離值

        從表1可以看出,相比傳統(tǒng)的GMM方法,本文提出的受限玻爾茲曼機(jī)語(yǔ)音帶寬擴(kuò)展方法得到的COSH距離值和均方根對(duì)數(shù)譜距離值減小。而且,隱含層數(shù)為3時(shí),COSH距離值和均方根對(duì)數(shù)譜距離值最小。這表明,就客觀評(píng)價(jià)而言,所提算法的性能優(yōu)于傳統(tǒng)的GMM方法,它能夠提高重構(gòu)語(yǔ)音的質(zhì)量,且隱含層數(shù)越多,重構(gòu)語(yǔ)音質(zhì)量越高。

        4.3 主觀評(píng)價(jià)

        主觀評(píng)價(jià)采用了A/B測(cè)試。該測(cè)試中,A代表傳統(tǒng)GMM 方法擴(kuò)展后的寬帶語(yǔ)音,B代表GBRBM&FNN方法擴(kuò)展后的寬帶語(yǔ)音。該測(cè)試中,一共有12位測(cè)聽(tīng)人對(duì)測(cè)試集中的所有語(yǔ)料進(jìn)行測(cè)聽(tīng),并給出他們偏愛(ài)哪一種方法或者無(wú)偏愛(ài)的測(cè)試結(jié)果。表3給出了A/B測(cè)試的結(jié)果。

        從表3可以看出,大多數(shù)人偏愛(ài)GBRBM & FNN擴(kuò)展后的語(yǔ)音,且隨著隱含層數(shù)的增加,人們偏愛(ài)GBRBM&FNN擴(kuò)展后語(yǔ)音的程度增加。這表明,就主觀測(cè)試而言,相比GMM方法,所提算法重構(gòu)的語(yǔ)音質(zhì)量更高。

        表3 A/B測(cè)試結(jié)果(%)

        4.4 語(yǔ)譜圖比較

        圖2給出了原始寬帶語(yǔ)音信號(hào)、低頻語(yǔ)音信號(hào)以及經(jīng)不同帶寬擴(kuò)展方法擴(kuò)展后的語(yǔ)音語(yǔ)譜圖。從圖2可以看出,相比傳統(tǒng)的GMM方法,GBRBM&FNN擴(kuò)展后的語(yǔ)音語(yǔ)譜圖更加接近原始寬帶語(yǔ)音信號(hào)的語(yǔ)譜圖。尤其,在橢圓標(biāo)記之處,GBRBM&FNN擴(kuò)展后的語(yǔ)音頻譜與原始寬帶語(yǔ)音信號(hào)的頻譜更吻合。這表明所提算法可以更加準(zhǔn)確的估計(jì)高頻頻譜包絡(luò),性能優(yōu)于傳統(tǒng)的GMM方法。

        圖2 語(yǔ)音語(yǔ)譜圖

        主觀測(cè)試、客觀測(cè)試以及語(yǔ)譜圖比較結(jié)果表明本文算法的性能優(yōu)于傳統(tǒng)的GMM方法。這是由于所提算法采用受限玻爾茲曼機(jī)提取了語(yǔ)音信號(hào)的高階統(tǒng)計(jì)特性,深層挖掘了低頻語(yǔ)音和高頻語(yǔ)音之間的關(guān)系,從而更準(zhǔn)確地模擬了高頻頻譜包絡(luò),提高了合成語(yǔ)音的質(zhì)量。

        5 結(jié)束語(yǔ)

        本文提出了基于高斯伯努利玻爾茲曼機(jī)和前饋神經(jīng)網(wǎng)絡(luò)的語(yǔ)音帶寬擴(kuò)展方法。算法分為高頻激勵(lì)信號(hào)的產(chǎn)生、能量增益的調(diào)整、高頻頻譜包絡(luò)估計(jì)3個(gè)部分。高頻激勵(lì)信號(hào)的產(chǎn)生采用低頻激勵(lì)信號(hào)作為高頻激勵(lì)信號(hào)。能量增益的調(diào)整采用碼本映射法。高頻頻譜包絡(luò)估計(jì)采用兩個(gè)高斯伯努利玻爾茲曼機(jī)和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)提煉了低頻語(yǔ)音和高頻語(yǔ)音的高階統(tǒng)計(jì)特性,將低頻頻譜包絡(luò)的特征參數(shù)映射為高頻頻譜包絡(luò)的特征參數(shù)。主觀測(cè)試、客觀測(cè)試及語(yǔ)譜圖實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)的GMM語(yǔ)音帶寬擴(kuò)展方法,所提的語(yǔ)音帶寬擴(kuò)展方法可以提高重建語(yǔ)音的質(zhì)量。

        致謝:感謝北京理工大學(xué)--愛(ài)立信國(guó)際合作項(xiàng)目以及國(guó)家留學(xué)基金委對(duì)本論文的支持。

        [1] BAUER P, ABEL J, FISCHER V,. Automatic recognition of wideband telephone speech with limited amount of matched training data[C]. Proceedings of the 22nd European Signal Processing Conference (EUSIPCO), Lisbon, Portugal, 2013: 1232-1236.

        [2] GANDHIMATHI G and JAYAKUMAR S. Speech enhancement using an artificial bandwidth extension algorithm in multicast conferencing through cloud services[J]., 2014, 13(12): 1953-1960. doi: 10.3923/itj.2014.1953.1960.

        [3] YOSHIDA Y and ABE M. An algorithm to reconstruct wideband speech from narrowband speech based on codebook mapping[C]. Proceedings of the International Conference on Spoken Language Processing, Yokohama, Japan, 1994: 1591-1594.

        [4] WANG Yingxue, ZHAO Shenghui,. Superwideband extension for AMR-WB using conditional codebooks[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Florence, Italy, 2014: 3695-3698.

        [5] NAKATOH Yoshihisa, TSUSHIMA Mineo, NORIMATSU Takeshi,. Generation of broadband speech from narrowband speech using on linear mapping[J].2(), 2002, 85(8): 44-53. doi: 10.1002/ecjb.10065.

        [6] DUY N D, SUZUKI M, MINEMSTSU N,. Artificial bandwidth extension based on regularized piecewise linear mapping with discriminative region weighting and long-Span features[C]. INTERSPEECH, Lyon, France, 2013: 3453-3457.

        [7] PARK K Y and KIM H S. Narrowband to wideband conversion of speech using GMM based transformation[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Istanbul, Turkey, 2000: 1843-1846.

        [8] PULAKKA H, REMES U, PALOMAKI K,. Speech bandwidth extension using gaussian mixture model-based estimation of the highband Mel spectrum[C]. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011: 5100-5103.

        [9] JAX P and VARY P. Artificial bandwidth extension of speech signals using mmse estimation based on a hidden markov model[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Hong Kong, 2003: 680-683.

        [10] BAUER P, ABEL J,. HMM-based artificial bandwidth extension supported by neural networks[C]. 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), Juan-les-Pins, France, 2014: 1-5.

        [11] LIU Haojie, BAO Changchun, and LIU Xin. Spectral envelope estimation used for audio bandwidth extension based on RBF neural network[C]. Proceedings of the IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Vancouver, Canada, 2013: 543-547.

        [12] LI K and LEE C H. A deep neural network approach to speech bandwidth expansion[C]. Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015: 4395-4399.

        [13] SEO H, KANG H G, and SOONG F. A maximum a Posterior-based reconstruction approach to speech bandwidth expansion in noise[C]. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014: 6087-6091.

        [14] LIU Xin and BAO Changchun. Audio bandwidth extension based on temporal smoothing cepstral coefficients[J].,,, 2014, 2014(1): 1-16.

        [15] OHTANI Y, AMURA M, ORITA M,. GMM-based bandwidth extension using sub-band basis spectrum model[C]. Fifteenth Annual Conference of the International Speech Communication Association, Singapore, 2014: 2489-2493.

        [16] ACKLEY D H, HINTON G E,. A learning algorithm for Boltzmann machines[J]., 1985, 9(1): 147-169. doi: 10.1207/s15516709cog0901_7.

        [17] MOHAME A, DAHL G E, and HINTON G E. Acoustic modeling using deep belief networks[J].,,, 2012, 20(1): 14-22.

        [18] HINTON G E. Training products of experts by minimizing contrastive divergence[J]., 2002, 14(8): 1771-1800.

        [19] HINTON G E and SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]., 2006, 313(5786): 504-507.

        [20] NTT Advanced Technology Corporation. Multi-lingual speech database for telephonometry[OL]. http://www.nttat.

        com/products e/speech, 1994.

        [21] MAKINEN J, BESSETTE B, BRUHN S,AMR-WB+: A new audio coding standard for 3rd generation mobile audio services[C]. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Pennsylvania, USA, 2005: 1109-1112.

        [22] 張勇, 胡瑞敏. 基于高斯混合模型的語(yǔ)音帶寬擴(kuò)展算法的研究[J]. 聲學(xué)學(xué)報(bào), 2009, 34(5): 471-480.

        ZHANG Yong and HU Ruimin. Speech bandwidth extension based on Gaussian mixture model[J]., 2009, 34(5): 471-480.

        [23] NOUR-ELDIN AMR H and KABAL P. Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech[C]. INTERSPEECH, Brisbane, Australia, 2008: 53-56.

        Speech Bandwidth Extension Based on Restricted Boltzmann Machines

        WANG Yingxue ZHAO Shenghui YU Yingying KUANG Jingming

        (,,100081,)

        Speech Bandwidth Extension (BWE) is a technique that attempts to improve the speech quality by recovering the missing High Frequency (HF) components using the correlation that exists between the Low Frequency (LF) and HF parts of the wide-band speech signal. The Gaussian Mixture Model (GMM) based methods are widely used, but it recovers the missing HF components on the assumption that the LF and HF parts obey a Gaussian distribution and gives their linear relationship, leading to the distortion of reconstructed speech. This Study proposes a new speech BWE method, which uses two Gaussian-Bernoulli Restricted Boltzmann Machines (GBRBMs) to extract the high-order statistical characteristics of spectral envelopes of the LF and HF respectively. Then, high-order features of the LF are mapped to those of the HF using a Feedforward Neural Network (FNN). The proposed method learns deep relationship between the spectral envelopes of LF and HF and can model the distribution of spectral envelopes more precisely by extracting the high-order statistical characteristics of the LF components and the HF components. The objective and subjective test results show that the proposed method outperforms the conventional GMM based method.

        Speech bandwidth extension; Restricted Boltzmann machines; Feedforward Neural Networks (FNN); Gaussian mixture model

        TN912.3

        A

        1009-5896(2016)07-1717-07

        10.11999/JEIT151034

        2015-09-14;改回日期:2016-03-03;網(wǎng)絡(luò)出版:2016-04-14

        趙勝輝 shzhao@bit.edu.cn

        王迎雪: 女,1989年生,博士生,研究方向?yàn)檎Z(yǔ)音、音頻編碼的研究.

        于瑩瑩: 女,1989年生,碩士生,研究方向?yàn)檎Z(yǔ)音、音頻編碼的研究.

        趙勝輝: 男,1970年生,副教授,主要從事移動(dòng)通信及語(yǔ)音、音頻信號(hào)處理的研究和教學(xué)工作.

        猜你喜歡
        玻爾茲曼特征參數(shù)高階
        基于格子玻爾茲曼方法的流固耦合問(wèn)題模擬
        故障診斷中信號(hào)特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        有限圖上高階Yamabe型方程的非平凡解
        高階各向異性Cahn-Hilliard-Navier-Stokes系統(tǒng)的弱解
        非對(duì)稱彎道粒子慣性遷移行為的格子玻爾茲曼模擬
        滾動(dòng)軸承壽命高階計(jì)算與應(yīng)用
        哈爾濱軸承(2020年1期)2020-11-03 09:16:02
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        淺談玻爾茲曼分布的微小偏離量所引起的微觀狀態(tài)數(shù)的變化
        統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
        久久久久av无码免费网| 东京热日本道免费高清| 亚州中文热码在线视频| 无码爆乳护士让我爽| 久久精品国产亚洲精品| 亚洲AⅤ男人的天堂在线观看| 超碰青青草手机在线免费观看| 97丨九色丨国产人妻熟女| 国产熟妇人妻精品一区二区动漫| 国产AV无码专区亚洲AV桃花庵| 亚洲无人区乱码中文字幕| 久久综合噜噜激激的五月天| 无码人妻久久一区二区三区不卡 | 欧美性高清另类videosex| 国产性生交xxxxx免费| 亚洲激情人体艺术视频| 亚洲av高清一区二区| 成人免费无码大片a毛片抽搐色欲| 国产又色又爽无遮挡免费| 亚洲色拍拍噜噜噜最新网站| 国产乱淫h侵犯在线观看| 日本阿v片在线播放免费| 国产精品一区二区久久| 亚洲一码二码在线观看| 精品少妇一区二区av免费观看| av人摸人人人澡人人超碰妓女| 一本久道久久综合五月丁香| 久久久精品人妻一区二区三区免费| 第十色丰满无码| 亚洲成精品动漫久久精久| 日本一区二区三级免费| 中文字幕乱码高清完整版| 偷窥村妇洗澡毛毛多| 中文字幕一区二区va| 人妻少妇偷人精品久久性色av| 国产亚洲精品aaaaaaa片| 人妻少妇人人丰满视频网站| 午夜视频一区二区三区播放| 777精品久无码人妻蜜桃| 狠狠躁夜夜躁人人爽天天| 亚洲精品中文字幕熟女|