亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于RBF神經(jīng)網(wǎng)絡(luò)的漢語耳語音轉(zhuǎn)化為正常語音的方法

2018-01-18 09:13:26王海燕

數(shù)字技術(shù)與應(yīng)用 2018年9期

王海燕

摘要：針對漢語耳語音特征參數(shù)較正常語音發(fā)生變化而導(dǎo)致的可懂度和清晰度較差的問題，提出了采用能夠以任意精度逼近連續(xù)函數(shù)的RBF神經(jīng)網(wǎng)絡(luò)建立漢語耳語音到正常語音的頻譜包絡(luò)映射關(guān)系，用以修正漢語耳語音的線譜對參數(shù)的方法。實驗結(jié)果表明采用本文方法的漢語耳語音MOS得分為3.6，頻譜失真距離變小，可懂度和清晰度得到了較大的提高。

關(guān)鍵詞：RBF；漢語耳語音；線譜對參數(shù)

中圖分類號：TN912 文獻標(biāo)識碼：A 文章編號：1007-9416（2018）09-0049-03

耳語音是一種特別的發(fā)音模式，發(fā)音的主要特點是聲帶不振動，沒有基頻，聲級低。耳語音轉(zhuǎn)換在禁止大聲喧嘩的場所、移動通訊通話質(zhì)量提高、國家安全部門語音識別系統(tǒng)升級、公安法院語音破譯以及電子人工喉音質(zhì)改進等方面具有非常重要的應(yīng)用價值。

目前，對耳語音轉(zhuǎn)換的研究主要有：粟學(xué)麗[1]等人使用相對熵法作為耳語音識別和轉(zhuǎn)換的預(yù)處理來重建正常語間，改善了語音的音質(zhì)，但是轉(zhuǎn)換時延較長；黃程[2]等人提出了使用混合激勵線性預(yù)測法實現(xiàn)漢語耳語音重建為正常語音，語音轉(zhuǎn)換的自然度有待改善；Morris.R.w[3]等人提出譜修正法實現(xiàn)了耳語音的轉(zhuǎn)換，但重建后的語音帶有明顯的失真，使得轉(zhuǎn)換后的語音有較強的金屬音質(zhì)。

本方法將漢語耳語音和正常語音韻母部分的線譜對參數(shù)，通過RBF網(wǎng)絡(luò)訓(xùn)練得到漢語耳語音到正常語音的線譜對參數(shù)轉(zhuǎn)換模型，通過轉(zhuǎn)換模型修正漢語耳語音的線譜對參數(shù)；然后將修正好的漢語耳語音的線譜對參數(shù)和正常語音基頻平均值，輸入到線譜對參數(shù)合成器中進行漢語耳語音韻母的轉(zhuǎn)換；最后將轉(zhuǎn)換后的清音和韻母結(jié)合，輸出目標(biāo)語音。

1 漢語耳語音的特點

耳語音發(fā)音時聲門保持半開的狀態(tài)使得聲道增加了氣管和肺的部分，聲道傳輸函數(shù)隨之發(fā)生相應(yīng)改變，從而導(dǎo)致耳語音的共振峰發(fā)生偏移。

耳語音的清輔音部分與正常語音的發(fā)音方式基本沒有區(qū)別，但是元音部分卻有明顯的差異。正常語音的元音是由準(zhǔn)周期脈沖激勵，含有明顯的基音頻率。耳語音的聲源為噪聲源，聲帶不振動，故耳語音的元音沒有基頻。而漢語的聲調(diào)識別與韻律合成控制都與基頻有關(guān)，漢語耳語音[4]的聲母和韻母的特征差異不大，導(dǎo)致漢語耳語音的聲韻較難分割，使得耳語音的可懂度和清晰度變差。

2 RBF神經(jīng)網(wǎng)絡(luò)在耳語音轉(zhuǎn)換中的應(yīng)用

RBF[5]（Radial basis function）神經(jīng)網(wǎng)絡(luò)是種高效的單隱含層前饋式網(wǎng)絡(luò)，能以任意精度逼近任何非線性連續(xù)函數(shù)。RBF網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。隱含層以高斯函數(shù)exp[-（b（x-w））2]為核函數(shù)。其中x是自變量，即輸入的很多值，b代表高斯函數(shù)的寬度即1/2σ2（σ為方差）。W為輸入權(quán)重，決定高斯函數(shù)的中心點。輸出結(jié)果是一組很平滑的小數(shù)，在特定的輸入值w處具有最大exp的函數(shù)值，輸入離這個特定的值越遠，輸出就成指數(shù)下降。

RBF網(wǎng)絡(luò)要學(xué)習(xí)的參數(shù)為基函數(shù)的中心和方差以及隱含層與輸出層間的權(quán)值。本文采用自組織選取中心法，將中心和權(quán)值的確定分為兩步：一是自組織學(xué)習(xí)階段，即學(xué)習(xí)和的階段；二是有監(jiān)督學(xué)習(xí)階段，即學(xué)習(xí)輸出層權(quán)值的階段。

（1）學(xué)習(xí)中心。自組織學(xué)習(xí)過程用到的聚類算法是K-均值聚類算法。假設(shè)聚類中心有個（的值由先驗知識決定），設(shè)（=1，2，…，），是第n次迭代時基函數(shù)的中心，K一均值聚類算法的具體步驟如下：

①始化聚類中心，即根據(jù)經(jīng)驗從訓(xùn)練樣本集中隨機選取個不同的樣本作為初始中心，（=1，2，…），設(shè)置迭代步數(shù)n=0。

②隨機輸入選練樣本。

③尋找訓(xùn)練樣本拖離哪個中心最近，即找到使其滿足，，式中，是第n次迭代時基函數(shù)的第i個中心。

④調(diào)整中心，用式：

3 系統(tǒng)結(jié)構(gòu)

本文在分析了漢語耳語音發(fā)音特點的基礎(chǔ)上，利用RBF神經(jīng)網(wǎng)絡(luò)建立了一個漢語耳語音與正常語音的頻譜映射關(guān)系，通過已訓(xùn)練的RBF神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換漢語耳語音的頻譜，使用LSP參數(shù)合成器轉(zhuǎn)化為正常語音。系統(tǒng)的處理方法如圖1所示：

（1）神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段：首先對漢語耳語音和正常語音進行端點檢測；然后分別對漢語耳語音和正常語音進行聲韻分割，并分別對漢語耳語音、正常語音的韻母部分進行預(yù)處理和LSP的提??；之后將漢語耳語音的韻母線LSP作為輸入信號，正常語音的韻母線LSP作為導(dǎo)師信號，進行RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練，得到漢語耳語音與正常語音的頻譜包絡(luò)映射關(guān)系。

（2）轉(zhuǎn)換階段：首先對漢語耳語音進行端點檢測；然對漢語耳語音進行聲韻分割以及提取漢語耳語音韻母部LSP；使用訓(xùn)練好的RBF神經(jīng)網(wǎng)絡(luò)模型修正漢語耳語音的LSP；以正常語音的基頻平均值作為基音頻率生成語音的激勵源；把激勵源以及轉(zhuǎn)換后的LSP參數(shù)輸入到LSP參數(shù)合成器進行漢語耳語音韻母部分的轉(zhuǎn)換；最后將轉(zhuǎn)換后的語音韻母部分和清音部分連接，輸出正常語音。

4 實驗結(jié)果與分析

4.1 仿真結(jié)果

本實驗選取了采樣率為I0KHz、16bit的wav格式音頻文件，然后對漢語耳語音進行如下處理：（1）使用線性預(yù)測法（LPC）轉(zhuǎn)換漢語耳語音；（2）使用同態(tài)信號處理法轉(zhuǎn)換漢語耳語音；（3）使用本文方法轉(zhuǎn)換漢語耳語音。圖2圖3為“酥打”的正常語音和分別由以上三種方法轉(zhuǎn)換后語音的時域波形圖和語譜圖。

4.2 轉(zhuǎn)換耳語音質(zhì)量評價

對三種方法轉(zhuǎn)換后的語音進行了平均MOS主觀評分法和LSP失真測度、板倉—齋田譜失真度測度、Mel頻率倒譜系數(shù)失真測度、巴克譜失真距離測度四種頻域客觀評價法[6][7]，表1給出了幾種方法的評價結(jié)果。仿真實驗結(jié)果顯示使用本文方法轉(zhuǎn)換的耳語音譜失真距離減小，在可懂度和音質(zhì)方面都達到了滿意的效果，見表1。

5 結(jié)語

為此本文結(jié)合線譜對參數(shù)合成器以及RBF神經(jīng)網(wǎng)絡(luò)建立了一個耳語音轉(zhuǎn)換的系統(tǒng)：首先使用RBF神經(jīng)網(wǎng)絡(luò)捕獲漢語耳語音、正常語音頻譜包絡(luò)的映射關(guān)系；轉(zhuǎn)換時，使用已訓(xùn)練好的RBF神經(jīng)網(wǎng)絡(luò)將漢語耳語音的頻譜做非線性映射產(chǎn)生轉(zhuǎn)換頻譜，最后通過LSP參數(shù)合成器轉(zhuǎn)換為正常語音。主觀以及客觀評價表明使用此方法轉(zhuǎn)換的漢語耳語音效果比較令人滿意。本文方法在轉(zhuǎn)換前首先需要建立一個漢語耳語音到正常語音的頻譜映射關(guān)系。因此本方法只適用于特定人的轉(zhuǎn)換。另外轉(zhuǎn)換后語音的可懂度仍偏低，效果也不及正常語音自然。

參考文獻

[1]粟學(xué)麗，丁慧，徐柏齡.基于熵函數(shù)的耳語音聲韻分割法[J].聲學(xué)學(xué)報 Vol.30，NO.1 Jan，2005.

[2]Cheng Huang ，Xing Yue Tao， Liang Tao.Reconstruction of Whisper in Chinese by Modified MELP [J].ICCSE，14-17 July 2012.Melbourne，Australia Pp：349-353.

[3]R.WMorris，M.A.Clements.Reconstruction of speech from whispers[J].Medical Engineering &Physics.2002;，24（8）：5 1 5-520.

[4]J.J.Guo，P.B.Lull.Selecting input factors for clusters of Gaussian radial basis functionnetworks to improve market clearing priceprediction[J].IEEE Transactions on PowerSystems，2003，18（2）：665-672.

[5]王麗麗.基于RBF神經(jīng)網(wǎng)絡(luò)函數(shù)擬合方法的仿真與研究[J].河北農(nóng)機.2016，11：61-63.

[6]陳雪勤，趙鶴鳴.有效高斯分量通用背景模型下耳語音聲道系統(tǒng)轉(zhuǎn)換研究[J].聲學(xué)學(xué)報，2013，38（2）：195-200.

[7]周健，魏昕，梁瑞宇，趙力.聯(lián)合時頻域中增強后耳語音的可懂度評估[J].東南大學(xué)學(xué)報：英文版，2014，30（3）：261-266.

數(shù)字技術(shù)與應(yīng)用2018年9期

數(shù)字技術(shù)與應(yīng)用的其它文章: 普通高中計算機機房的管理; 關(guān)于大數(shù)據(jù)時代地方公安信息化建設(shè)的探討; 物聯(lián)網(wǎng)下職業(yè)學(xué)校“智慧實訓(xùn)管理中心”的建設(shè)思考; 網(wǎng)頁正文提取方法在輿情監(jiān)控中的應(yīng)用探究; 利用電壓極值測量RC串聯(lián)電路的時間常數(shù); 智慧生活，從“AI+IoT”開始