亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音模擬仿聲應(yīng)用系統(tǒng)的研究與論證

2016-02-28 13:55:47董明

西部廣播電視 2016年13期

關(guān)鍵詞：聲學(xué)音色發(fā)音

董明

（作者單位：中國華藝廣播公司電視中心）

語音模擬仿聲應(yīng)用系統(tǒng)的研究與論證

董明

（作者單位：中國華藝廣播公司電視中心）

本文主要介紹了語音模擬仿聲應(yīng)用系統(tǒng)的總體技術(shù)方案、系統(tǒng)組成、關(guān)鍵技術(shù)、主要性能指標及技術(shù)可行性分析等，為業(yè)內(nèi)人士提供一定的參考。

語音模擬仿聲應(yīng)用系統(tǒng)；語音轉(zhuǎn)換工具；研究與論證

當(dāng)前，語音識別技術(shù)已經(jīng)發(fā)展成為了涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、統(tǒng)計模式、概率論和信息論、發(fā)生機理和聽覺機理、人工智能等多學(xué)科技術(shù)的一項綜合性技術(shù)，基于語音識別技術(shù)研發(fā)的語音模擬仿聲應(yīng)用系統(tǒng)在很多場景下獲得了成功的應(yīng)用。語音模擬仿聲應(yīng)用系統(tǒng)主要功能包括：一是能對輸入的音頻文件或現(xiàn)場錄音進行語音識別；二是能檢測目標人員語音的各類數(shù)據(jù)，對目標人員語音進行數(shù)學(xué)建模；三是能把普通人朗讀文稿或現(xiàn)場錄音轉(zhuǎn)換成目標人員的語音，并可以自動保存為多格式的音頻文件，以供使用。

1　系統(tǒng)技術(shù)方案

語音模擬仿聲應(yīng)用系統(tǒng)主要是以智能語音技術(shù)為基礎(chǔ)，通過對目標人員音庫進行收集與制作、目標人員發(fā)音模擬、語音合成轉(zhuǎn)換等功能，實現(xiàn)從普通人語音到目標人員語音的轉(zhuǎn)換。

1.1系統(tǒng)組成

語音模擬仿聲應(yīng)用系統(tǒng)由目標人發(fā)音模擬庫和語音轉(zhuǎn)換工具兩部分組成。目標人發(fā)音模擬庫是通過模擬發(fā)音人朗讀輸入的文本，然后采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數(shù)，通過工具進行訓(xùn)練后形成模擬發(fā)音人到目標發(fā)音人之間的轉(zhuǎn)換參數(shù)和模型，從而建立目標發(fā)音人模型庫。語音轉(zhuǎn)換工具是利用訓(xùn)練階段得到的模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)對頻譜和基頻參數(shù)進行轉(zhuǎn)換；轉(zhuǎn)換后的聲學(xué)參數(shù)送入STRAIGHT合成器重構(gòu)得到具有目標發(fā)音人身份特點的語音波形。

1.2分系統(tǒng)技術(shù)方案

1.2.1目標人發(fā)音模擬庫

該子系統(tǒng)主要通過構(gòu)建源-目標發(fā)音人頻譜轉(zhuǎn)換關(guān)系，實現(xiàn)模擬發(fā)音人到目標發(fā)音人之間的音色轉(zhuǎn)換，從而構(gòu)建目標發(fā)音人的模擬庫。該子系統(tǒng)方案技術(shù)原理可以分為訓(xùn)練與模仿兩個階段。

訓(xùn)練過程：由模擬發(fā)音人朗讀和目標發(fā)音人語音數(shù)據(jù)庫中文本一致的語音數(shù)據(jù)，訓(xùn)練由模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)。

模仿過程：首先，由模擬發(fā)音人朗讀輸入的文本；然后，采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數(shù)；利用訓(xùn)練階段得到的模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)對頻譜和基頻參數(shù)進行轉(zhuǎn)換；轉(zhuǎn)換后的聲學(xué)參數(shù)送入STRAIGHT合成器重構(gòu)得到具有目標發(fā)音人身份特點的語音波形。

1.2.2語音轉(zhuǎn)換工具

語音轉(zhuǎn)換工具主要是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)，構(gòu)建源-目標發(fā)音人頻譜轉(zhuǎn)換關(guān)系，提升發(fā)音人音色轉(zhuǎn)換效果?；赗BM/BAM結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型可直接使用高維譜包絡(luò)進行建模，并具有較強的階間相關(guān)性描述能力，對數(shù)據(jù)稀疏性有一定容忍能力，不容易出現(xiàn)過多訓(xùn)練現(xiàn)象，因此相對傳統(tǒng)GMM單高斯模型有更好的參數(shù)描述能力。

1.3關(guān)鍵技術(shù)

1.3.1目標發(fā)音人語音資源自動制作方法

語音信號檢測與目標發(fā)音人的語音分割：從收集的原始音頻文件中自動檢測語音信號，剔除噪聲、樂聲等非語音信號；實現(xiàn)語音中的話者分割，得到特定目標發(fā)音人的語音數(shù)據(jù)。

自動語音標注技術(shù)：實現(xiàn)語音文本到音素序列的轉(zhuǎn)換和音素邊界的自動切分；實現(xiàn)無監(jiān)督或半監(jiān)督情況下的語音數(shù)據(jù)中短語邊界、重讀、邊界調(diào)等韻律特征的自動標注。

1.3.2模擬仿聲轉(zhuǎn)換方案

模擬發(fā)音人的挑選與培訓(xùn)方法：利用話者識別技術(shù)挑選與目標發(fā)音人音色接近的模擬發(fā)音人；基于語音評測技術(shù)指導(dǎo)其進一步學(xué)習(xí)目標發(fā)音人的發(fā)音特點。

高質(zhì)量的聲音轉(zhuǎn)換技術(shù)：在對模擬發(fā)音人的朗讀語音進行調(diào)整時，能夠盡可能地接近目標發(fā)音人音色特征，同時保證語音質(zhì)量少受損失。

2　主要性能指標

語音身份偽裝中，在目標發(fā)音人可用語音數(shù)據(jù)超過2小時時，偽裝語音與目標發(fā)音人語音相似度MOS（Mean Opinion Score）超過3.5分，自然度MOS超過4.0分。

支持語種包括中文普通話、可夾雜部分英語、法語、德語（占總體比例為1%～5%）等。

3　技術(shù)可行性分析

對于模擬仿聲來說，目標人的語氣、節(jié)奏等方面都比較容易，但音色最難模仿?；谝羯成淠Ｐ偷穆曇艮D(zhuǎn)換技術(shù)，主要通過獲取目標人的一定量語音，然后由和目標人員音色、口音差異不大的特定操作人員錄制相同內(nèi)容的語料，再通過自動化工具針對兩部分數(shù)據(jù)進行訓(xùn)練，建立目標人和模仿人的音色映射模型，之后即可通過軟件實時低將該特定操作人員說的任何話轉(zhuǎn)換為和目標人風(fēng)格相似的語音。如果模仿人和被模仿人音色本身比較相近時，則有可能做到以假亂真的效果。

4　結(jié)語

語音模擬仿聲應(yīng)用系統(tǒng)以語音為研究對象，與聲學(xué)、語音學(xué)、語言學(xué)、信息理論、模式識別理論及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。語音模擬仿聲技術(shù)正逐步成為計算機信息處理系統(tǒng)中的關(guān)鍵技術(shù)，語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音模擬仿聲應(yīng)用系統(tǒng)的研究與論證

1 系統(tǒng)技術(shù)方案

2 主要性能指標

3 技術(shù)可行性分析

4 結(jié)語

1　系統(tǒng)技術(shù)方案

2　主要性能指標

3　技術(shù)可行性分析

4　結(jié)語