董 明
(作者單位:中國華藝廣播公司電視中心)
語音模擬仿聲應(yīng)用系統(tǒng)的研究與論證
董 明
(作者單位:中國華藝廣播公司電視中心)
本文主要介紹了語音模擬仿聲應(yīng)用系統(tǒng)的總體技術(shù)方案、系統(tǒng)組成、關(guān)鍵技術(shù)、主要性能指標及技術(shù)可行性分析等,為業(yè)內(nèi)人士提供一定的參考。
語音模擬仿聲應(yīng)用系統(tǒng);語音轉(zhuǎn)換工具;研究與論證
當(dāng)前,語音識別技術(shù)已經(jīng)發(fā)展成為了涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、統(tǒng)計模式、概率論和信息論、發(fā)生機理和聽覺機理、人工智能等多學(xué)科技術(shù)的一項綜合性技術(shù),基于語音識別技術(shù)研發(fā)的語音模擬仿聲應(yīng)用系統(tǒng)在很多場景下獲得了成功的應(yīng)用。語音模擬仿聲應(yīng)用系統(tǒng)主要功能包括:一是能對輸入的音頻文件或現(xiàn)場錄音進行語音識別;二是能檢測目標人員語音的各類數(shù)據(jù),對目標人員語音進行數(shù)學(xué)建模;三是能把普通人朗讀文稿或現(xiàn)場錄音轉(zhuǎn)換成目標人員的語音,并可以自動保存為多格式的音頻文件,以供使用。
語音模擬仿聲應(yīng)用系統(tǒng)主要是以智能語音技術(shù)為基礎(chǔ),通過對目標人員音庫進行收集與制作、目標人員發(fā)音模擬、語音合成轉(zhuǎn)換等功能,實現(xiàn)從普通人語音到目標人員語音的轉(zhuǎn)換。
1.1系統(tǒng)組成
語音模擬仿聲應(yīng)用系統(tǒng)由目標人發(fā)音模擬庫和語音轉(zhuǎn)換工具兩部分組成。目標人發(fā)音模擬庫是通過模擬發(fā)音人朗讀輸入的文本,然后采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數(shù),通過工具進行訓(xùn)練后形成模擬發(fā)音人到目標發(fā)音人之間的轉(zhuǎn)換參數(shù)和模型,從而建立目標發(fā)音人模型庫。語音轉(zhuǎn)換工具是利用訓(xùn)練階段得到的模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)對頻譜和基頻參數(shù)進行轉(zhuǎn)換;轉(zhuǎn)換后的聲學(xué)參數(shù)送入STRAIGHT合成器重構(gòu)得到具有目標發(fā)音人身份特點的語音波形。
1.2分系統(tǒng)技術(shù)方案
1.2.1目標人發(fā)音模擬庫
該子系統(tǒng)主要通過構(gòu)建源-目標發(fā)音人頻譜轉(zhuǎn)換關(guān)系,實現(xiàn)模擬發(fā)音人到目標發(fā)音人之間的音色轉(zhuǎn)換,從而構(gòu)建目標發(fā)音人的模擬庫。該子系統(tǒng)方案技術(shù)原理可以分為訓(xùn)練與模仿兩個階段。
訓(xùn)練過程:由模擬發(fā)音人朗讀和目標發(fā)音人語音數(shù)據(jù)庫中文本一致的語音數(shù)據(jù),訓(xùn)練由模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)。
模仿過程:首先,由模擬發(fā)音人朗讀輸入的文本;然后,采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數(shù);利用訓(xùn)練階段得到的模擬發(fā)音人到目標發(fā)音人的聲學(xué)參數(shù)轉(zhuǎn)換函數(shù)對頻譜和基頻參數(shù)進行轉(zhuǎn)換;轉(zhuǎn)換后的聲學(xué)參數(shù)送入STRAIGHT合成器重構(gòu)得到具有目標發(fā)音人身份特點的語音波形。
1.2.2語音轉(zhuǎn)換工具
語音轉(zhuǎn)換工具主要是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù),構(gòu)建源-目標發(fā)音人頻譜轉(zhuǎn)換關(guān)系,提升發(fā)音人音色轉(zhuǎn)換效果?;赗BM/BAM結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型可直接使用高維譜包絡(luò)進行建模,并具有較強的階間相關(guān)性描述能力,對數(shù)據(jù)稀疏性有一定容忍能力,不容易出現(xiàn)過多訓(xùn)練現(xiàn)象,因此相對傳統(tǒng)GMM單高斯模型有更好的參數(shù)描述能力。
1.3關(guān)鍵技術(shù)
1.3.1目標發(fā)音人語音資源自動制作方法
語音信號檢測與目標發(fā)音人的語音分割:從收集的原始音頻文件中自動檢測語音信號,剔除噪聲、樂聲等非語音信號;實現(xiàn)語音中的話者分割,得到特定目標發(fā)音人的語音數(shù)據(jù)。
自動語音標注技術(shù):實現(xiàn)語音文本到音素序列的轉(zhuǎn)換和音素邊界的自動切分;實現(xiàn)無監(jiān)督或半監(jiān)督情況下的語音數(shù)據(jù)中短語邊界、重讀、邊界調(diào)等韻律特征的自動標注。
1.3.2模擬仿聲轉(zhuǎn)換方案
模擬發(fā)音人的挑選與培訓(xùn)方法:利用話者識別技術(shù)挑選與目標發(fā)音人音色接近的模擬發(fā)音人;基于語音評測技術(shù)指導(dǎo)其進一步學(xué)習(xí)目標發(fā)音人的發(fā)音特點。
高質(zhì)量的聲音轉(zhuǎn)換技術(shù):在對模擬發(fā)音人的朗讀語音進行調(diào)整時,能夠盡可能地接近目標發(fā)音人音色特征,同時保證語音質(zhì)量少受損失。
語音身份偽裝中,在目標發(fā)音人可用語音數(shù)據(jù)超過2小時時,偽裝語音與目標發(fā)音人語音相似度MOS(Mean Opinion Score)超過3.5分,自然度MOS超過4.0分。
支持語種包括中文普通話、可夾雜部分英語、法語、德語(占總體比例為1%~5%)等。
對于模擬仿聲來說,目標人的語氣、節(jié)奏等方面都比較容易,但音色最難模仿?;谝羯成淠P偷穆曇艮D(zhuǎn)換技術(shù),主要通過獲取目標人的一定量語音,然后由和目標人員音色、口音差異不大的特定操作人員錄制相同內(nèi)容的語料,再通過自動化工具針對兩部分數(shù)據(jù)進行訓(xùn)練,建立目標人和模仿人的音色映射模型,之后即可通過軟件實時低將該特定操作人員說的任何話轉(zhuǎn)換為和目標人風(fēng)格相似的語音。如果模仿人和被模仿人音色本身比較相近時,則有可能做到以假亂真的效果。
語音模擬仿聲應(yīng)用系統(tǒng)以語音為研究對象,與聲學(xué)、語音學(xué)、語言學(xué)、信息理論、模式識別理論及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。語音模擬仿聲技術(shù)正逐步成為計算機信息處理系統(tǒng)中的關(guān)鍵技術(shù),語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。