亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        表現性語音合成綜述

        2023-12-01 02:53:42唐浩彬張旭龍王健宗程寧肖京
        大數據 2023年6期
        關鍵詞:文本信息模型

        唐浩彬,張旭龍,王健宗,程寧,肖京

        1.平安科技(深圳)有限公司,廣東 深圳 518063;

        2.中國科學技術大學,安徽 合肥 230026

        0 引言

        語音合成旨在從文本合成可理解且自然的語音,在人類通信中有廣泛的應用,長期以來一直是人工智能、自然語言和語音處理的研究課題。語音合成的研究歷史可追溯至18世紀,從早期的基于規(guī)則的機械式、電子式語音合成器[1],發(fā)展到基于波形拼接[2-5]、統(tǒng)計參數的語音合成[6-10]。近年來,基于深度學習和神經網絡的建模方法在機器學習領域各個任務上取得了快速的發(fā)展,語音合成技術也在此基礎上得到了顯著的提升。隨著信息技術及人工智能技術的發(fā)展,各種應用場景對語音合成的效果有了越來越高的要求。

        一個好的語音合成系統(tǒng)應該產生自然且可理解的語音,大量的語音合成研究工作旨在提高語音合成的可理解性和自然度。自然度在很大程度上取決于合成語音的表現力,而表現力由內容、音色、韻律、情感和風格等多種特征共同決定。目前的語音合成模型合成的語音往往采用機械、木訥、單一的方式進行表達,僅僅保證了合成語音內容的正確性,在自然度方面十分欠缺。為了彌補自然度方面的缺陷,表現性語音合成應運而生。表現性語音合成旨在從音色、韻律、情感和風格等多方面提升合成語音自然度的語音合成,是目前語音合成領域中比較活躍的方向。表現性語音合成和單純語音合成的區(qū)別是,它更關注合成聲音的自然度,包括風格(如新聞播報、講故事、解說)、情感(如生氣、興奮、悲傷)、韻律(如重讀、強調)等。其中韻律是指在去除了語音、說話人身份和通道效應(即錄音環(huán)境)引起的變化后剩余的語音信號的變化[11-12]。表現性語音合成發(fā)展的問題在于處理一對多映射問題,這是指在持續(xù)時間、音調、音量、說話者風格、情感等方面,存在與同一文本相對應的多個語音表達。為了解決這個問題,表現性語音合成系統(tǒng)必須隱式或顯式地輸入許多在簡單文本輸入中沒有給出的因素,如韻律中的語調、重音、節(jié)奏等因素。表現性語音合成的關鍵技術在于如何高效地利用數據集中關于這些因素的顯式標簽或顯式音頻信號作為額外輸入以增添合成語音中的表現力,或者如何隱式地對音頻中的這些因素建模并對其進行控制。以語音中每個音素的持續(xù)時間為例,在不帶任何韻律風格的語音中該持續(xù)時間分布大多在0~25 ms,而當說話者自發(fā)地延長或縮短音素以表達多樣的韻律提升話語的表現力時,音素的持續(xù)時間分布將擴展到0~40 ms[13],而如何控制該持續(xù)時間的因素并沒有在輸入的文本中提供。表現性語音合成希望通過對類似音素持續(xù)時間變化這種文本中沒有的因素建模,從而實現在合成的語音中通過自發(fā)的改變音素持續(xù)時間以表達多樣的韻律。這是因為話語表達的意義本質上是文本所不明確的。例如簡單的語句“他坐在樹底下”可以用很多不同的方式來表達。如果這句話是對“他在哪里”問題的回答,說話者可能會強調“他”一詞,以表明它是問題的答案。說話者可能會決定用上升的音調來回答以表達知識的不確定性。這些句子的語調帶有文本內容未指明的語境和上下文含義,一般來說言語中存在許多這樣的細微差別,它們傳遞的信息超出了文本內容,而表現性語音合成的任務就是隱式或顯式地對這些細微差別建模,補充語音合成難以體現的細微差別,以達到使合成語音更加自然、更具有表現性的目的。

        本文對語音合成及表現性語音合成進行了概述。首先闡述語音合成,而后引入更加關注語音自然度的表現性語音合成,最終目標是在不破壞語音合成質量的前提下,探索最大限度地提高合成語音表現力的方法。

        1 語音合成

        1.1 語音合成發(fā)展

        第一個基于計算機的語音合成系統(tǒng)出現在20世紀。早期基于計算機的語音合成方法包括發(fā)音合成、共振峰合成和級聯(lián)合成。后來,隨著統(tǒng)計機器學習的發(fā)展,有人提出了統(tǒng)計參數語音合成,用于預測語音合成的頻譜、基頻和持續(xù)時間等參數。隨著計算機科學技術的發(fā)展,基于神經網絡的語音合成逐漸成為主流方法。最開始出現的發(fā)音合成通過模擬人類發(fā)音器的行為產生語音,如嘴唇、舌頭、聲門和移動的聲道。之后,基于共振峰的方法[14-17]和基于單元選擇的波形拼接方法出現,再到基于隱馬爾可夫模型(hidden Markov model,HMM)的統(tǒng)計參數語音合成(statistical parametric speech synthesis, SPSS)方法[6-10]。統(tǒng)計參數語音合成方法[18]的基本思想是首先生成語音所需的聲學參數[19],然后使用一些算法[20]從生成的聲學參數中恢復語音。與以前的語音合成系統(tǒng)相比,SPSS方法有幾個優(yōu)點,具體如下。①自然:音頻更自然。②靈活性:便于修改參數來控制生成語音。③數據成本低:比級聯(lián)合成需要更少的記錄。然而,SPSS方法也有其缺點,具體如下。①由于低沉、嗡嗡聲或嘈雜音頻等偽影,生成的語音比較難理解。②生成的語音比較機械,是可很容易區(qū)分的機器人聲音。

        最近,端到端語音合成系統(tǒng)已經取得了顯著的進步,顯示出幾乎與人類相似的語音質量。在端到端語音合成系統(tǒng)中,Tacotron[21]、Tacotron2[22]和Transformer TTS[23]等自回歸(autoregression,AR)模型首次利用注意機制顯示出最先進的性能。Tacotron模型是首個真正意義上的端到端語音合成深度神經網絡模型。與傳統(tǒng)語音合成相比,它沒有復雜的語音學和聲學特征模塊,而是僅用<文本序列,語音聲譜>配對數據集對神經網絡進行訓練,模型如圖1所示。

        圖1 自回歸語音合成模型

        然而,由于模型的生成速度慢,且由于注意失敗而缺乏穩(wěn)定性,近年來有人提出了非自回歸(not-autoregression,NAR)模型,如FastSpeech[24]、FastSpeech2[25]等。FastSpeech提供了一種基于Transformer的前饋網絡,用于并行生成語音合成的梅爾頻譜,通過并行梅爾頻譜生成,FastSpeech在合成語音方面比之前具有類似質量的自回歸模型速度快得多。FastSpeech2模型如圖2所示,在FastSpeech基礎上提高了語音合成速度并提出了方差適配器,旨在向音素隱藏序列中添加方差信息(如持續(xù)時間、基音、能量等),從而為語音合成中的一對多映射問題提供足夠的信息來預測變換的語音。FastSpeech2模型作為目前最好的非自回歸模型,也是許多非自回歸表現性語音合成的基礎模型。

        圖2 非自回歸語音合成FastSpeech2模型

        1.2 神經網絡語音合成組成

        神經網絡語音合成主要由文本分析前端、聲學模型和聲碼器三部分組成,如圖3所示。首先,文本前端將文本轉換為標準輸入。然后,聲學模型將標準輸入轉換為中間聲學特征,用于建模語音的長期結構。最常見的中間聲學特征是頻譜圖、聲碼器特征或語言特征。最后,使用聲碼器填充低電平信號細節(jié),并將聲學特征轉換為時域波形樣本。

        圖3 神經網絡語音合成模型組成

        文本到語音轉換過程中有幾種數據表示,具體如下。①字符:文本的原始格式。②通過文本分析獲得的語言特征,包含豐富的語音和韻律語境信息。音素是語言特征中重要的元素之一,在基于神經網絡的語音合成模型中,音素通常單獨用來表示文本。③聲學特征:是語音波形的抽象表示。④波形:語音的最終格式。在統(tǒng)計參數語音合成中,線譜對(line spectral pairs,LSP)[26]、梅爾頻率倒譜系數(Mel frequency cepstral coefficients,MFCC)[27]、梅爾廣義系數(Mel-generalized coefficients,MGC)[28]、基頻和頻帶非周期性(band a periodicities,BAP)[29-30]被用作聲學特征,這些特征可以通過STRAIGHT[31]和WORLD[32]等聲碼器輕松轉換為波形。在基于神經網絡的端到端語音合成模型中,通常使用梅爾頻譜或線性譜圖作為聲學特征,并使用基于神經網絡的聲碼器將其轉換為波形。

        2 表現性語音合成

        深度學習方法合成的語音音調平滑,沒有節(jié)奏感和表現力,因此往往與真實的人聲有一定的差距。為了實現表現性語音合成的目標,即提升合成語音的自然度,需要考慮3個部分:“說什么”“誰說”“如何說”?!罢f什么”由輸入文本和文本前端控制,實現“說什么”是語音合成的基本任務?!罢l說”和“如何說”則是表現性語音合成在不影響語音合成完成“說什么”的基礎上需要重點關注的兩個問題?!罢l說”可以通過收集一個人的大量語音數據,然后訓練模型來學習模仿說話人的聲音來控制,衍生為表現性語音合成中的多說話人任務,將在后續(xù)內容具體介紹?!叭绾握f”由合成語音的音調、語速和情感等韻律信息控制,可以利用表現性語音合成通過顯式或隱式地對這些信息進行建模并加以控制。

        語音合成在實現文本到語音的過程中涉及很多變化的信息。最基本的文本信息可以是字符或音素,代表合成語音的內容(即“說什么”)。為了產生真實自然的語音,文本到語音系統(tǒng)必須隱式或顯式地輸入許多在簡單文本輸入中沒有給出的因素,這些因素控制著語音的自然度。表現性語音合成需要解決的問題就是如何控制、分離并在合成的語音中加入這些因素。用于控制語音的一些屬性有:代表說話人的信息(即“誰說”),即一些多說話人語音合成系統(tǒng)通過說話人查找表或說話人編碼器明確建模說話人表示;韻律、風格和情感信息,包括語調、重音和節(jié)奏等,代表如何說出文本。韻律/風格/情感是提高言語表達能力的關鍵信息,絕大多數關于表達性語音合成的工作專注于提高言語的韻律/風格/情感;錄音設備或噪聲環(huán)境是傳遞語音的渠道,與語音的內容/說話人/韻律無關,但會影響語音質量。該領域的研究工作主要集中在語音合成的信息分離、控制和去噪。建模這些信息的方式主要有顯式和隱式兩種。如果有每個屬性的標簽,即顯式信息,將標簽作為模型訓練的輸入讓模型學習這些屬性,并使用相應的標簽在推理中顯式地控制合成語音。然而,當沒有標簽可用時,如何分離和控制這些屬性是一個挑戰(zhàn),在這一過程中需要對這些變化的屬性進行隱式的建模,并以此實現分離和控制??梢愿鶕5男畔㈩愋蛯δP瓦M行分類,具體見表1。其中,顯式信息可以顯式獲得這些變化信息的標簽,隱式信息只能隱式獲得這些變化信息。

        表1 表現性語音合成信息的顯式及隱式建模方法

        2.1 顯式信息

        上述說話人信息、語言信息等往往可以作為顯式信息,直接使用它們作為輸入,以增強表現性語音合成的模型。對于這些顯式信息,可以通過約束波形的韻律特征直觀地進行控制。

        首先可以從標簽數據中獲取語言ID、說話人ID、風格和韻律等顯式特征。例如,韻律信息可以根據注釋模式進行標記,自基于HMM的語音合成研究以來,韻律和說話風格建模一直在研究中。例如,Eyben F等人[46]提出了一種系統(tǒng),該系統(tǒng)首先對訓練集進行聚類,然后執(zhí)行基于HMM的聚類自適應訓練[47]。Rosenberg A[48]使用AuToBI標簽改進基于HMM的合成。Morrison M等人[49]提出了一種用戶可控、上下文感知的神經韻律生成器,該生成器允許輸入特定時間幀的基頻輪廓,并根據輸入文本和上下文韻律生成剩余時間幀。漢語語音合成系統(tǒng)也對韻律進行預測,典型的韻律邊界標簽由韻律詞(prosodic word,PW)、韻律短語(prosodic phrase,PPH)和語調短語(intonational phrase,IPH)組成,它們構成了一個3層韻律結構樹,圖4[50]展示了韻律結構樹的示例。

        圖4 韻律結構樹示例

        除標簽數據外,還可以從語音中直接提取音調和能量信息,并從成對的文本和語音數據中提取持續(xù)時間。FastSpeech2在FastSpeech的基礎上提出差異適配器,旨在向音素隱藏序列中添加3種差異信息:音素持續(xù)時間,表示語音的持續(xù)時間;音高,傳達情感的關鍵特征,對語音韻律有很大影響;能量,表示梅爾頻譜的幀級量級,直接影響語音的音量和韻律。FastPitch[36]將基音預測網絡添加到FastSpeech中,以控制基音。與FastSpeech和FastPitch相比,FastSpeech2引入了更多的風格特征,如基音、能量和更精確的持續(xù)時間,作為條件輸入構建差異適配器,并使用經過訓練的能量、基音和持續(xù)時間預測器合成具有特定風格的語音。

        2.2 隱式建模

        在大多數情況下,語音數據集中并沒有合適的可用的顯式標簽,一句話中的抑揚頓挫難以進行人為標記,同時顯式地為龐大的語音數據集中的每一句話添加相應的標簽會帶來大量的人力成本,并且這些標簽無法覆蓋特定或細粒度的變化信息。因此,表現性語音合成的另一重要任務就是從數據中隱式地建模變化信息,以實現對這些難以標記信息的控制和分離。筆者將對不同的隱式建模方法進行相關模型的綜述,主要包含基于參考編碼器[37]、全局風格標記[40]、變分自編碼器[41]、生成對抗網絡等[43]等。

        2.2.1 參考編碼器

        通過添加參考編碼器合成表現性語音,可以引入風格信息。主要有兩種基于參考編碼器的方法可以用來合成具有特定風格的語音。第一種方法是使用經過訓練的參考編碼器直接控制各種語音風格參數,例如音調、響度和情緒。第二種方法是將參考音頻輸入參考編碼器,并使用參考編碼器編碼的風格參數在參考語音和目標語音之間傳輸語音風格特征。人們提出了不同的方法和模型分離不同的風格特征信息,這樣每個風格特征都可以很容易地單獨控制,從而合成具有目標風格的語音。后文將介紹這些方法和模型。Skerry-Ryan R J等人[37]將語音特征分為3個部分:文本、說話人和韻律。在Tacotron中加入參考編碼器,從特定風格的參考語音中提取韻律嵌入,并使用說話人嵌入查找表獲得說話人嵌入。然后將韻律嵌入、說話人嵌入和文本嵌入相結合,輸入解碼器合成具有參考語音風格的語音。參考編碼器可以從參考語音中分離得到韻律嵌入,實現對韻律的整體建模,但是不能分離出韻律嵌入中具有代表性的韻律內容,如音調、持續(xù)時間等。Gururani S等人[38]在Skerry-Ryan R J等人的基礎上對模型進行了改進,將語音的風格特征分為音調和響度,并選擇兩個時間序列分別對參考語音的基頻和響度進行建模。日常對話中往往包含了很多情感信息,為了更準確地傳遞參考語音中的情感特征,Li T等人[51]在參考編碼器和解碼器之后分別添加了兩個情感分類器,以增強情感空間中的情感分類能力。此外,他們采用了風格損失[52-53]測量生成的和參考梅爾頻譜[54]之間的風格差異以實現將參考語音中的情感傳遞至生成的語音中。

        2.2.2 全局風格標記

        為了分離語音中的不同風格特征,并達到單獨控制從參考編碼器獲得的韻律嵌入中的每個特征的目的,Wang Y等人[39]在Tacotron中引入了一個全局風格標記網絡,如圖5所示,該網絡起到了聚類的作用。

        圖5 GST模型

        當GST網絡使用不同風格的語音數據進行訓練時,可以獲得多個有意義且可解釋的標記,這些標記(A、B、C、D)就被稱為全局風格標記。這些標記加權求和后被用作風格嵌入來控制和傳遞語音的風格特征。但GST方法的缺陷在于難以解釋學習到的每個風格標記并賦予其實際意義,即無法分辨每個標記代表的具體風格。對于標記權重的選擇,Kwon O等人[55]提出了一種基于控制權重的方法,通過研究情緒向量空間中每種情緒的分布定義權重值。Um S Y等人[56]提出改進方法,簡單地平均屬于每個情感類別的風格嵌入向量[57],通過最大化類別間距離與類別內距離的比率確定代表性權重向量,并提出用感知擴散的方法改變情緒強度,而不是簡單地基于線性插值的方法。該方法通過對情緒強度建??刂茖崿F了對情感的細粒度控制,可以對情緒的強度進行手動控制。Mellotron方法[40]還引入了基頻信息,并將文本、說話人、基頻、注意力映射和GST作為合成語音的條件,其中說話人代表音色,基頻代表音高,注意力映射代表節(jié)奏,GST代表韻律。由于GST Tacotron僅使用成對的輸入文本和參考語音進行訓練,因此在合成過程中輸入未配對的文本和語音將導致生成的聲音變得模糊。導致這種情況的原因可能是參考編碼器未能完全分離韻律信息而引入了一些文本信息。由于韻律遷移模型往往在訓練時使用與輸入文本具有相同文本的參考語音,而在推理中不同,訓練和推理之間產生了差距。Liu D R等人[58]為了解決這個問題利用雙重學習的思想,提出用不成對的文本和語音訓練GST-Tacotron,并將輸出的梅爾頻譜輸入語音識別模型以預測輸入文本,從而防止參考編碼器編碼任何文本信息。為了更靈活地控制合成語音的多種風格特征,可以使用多參考編碼器分別提取多參考語音的不同風格特征。例如,Bian Y[59]等人使用基于GST網絡的多個參考編碼器分離不同的風格特征,并提出交叉訓練技術,通過在每個編碼器提取的風格之間引入正交約束分離風格潛在空間。然而,這種交叉訓練方案并不能保證在訓練過程中看到每一種風格類別的組合,從而錯過了在不相交的數據集上學習風格的分離表示和次優(yōu)結果的機會。Whitehill M等人[60]使用對抗性循環(huán)一致性訓練方案,確保使用所有風格維度的信息,以應對Bian Y等人方法無法解決的不相交數據集上多參考風格轉換的挑戰(zhàn)。參考編碼器及全局風格標記建模模型對比見表2。

        2.2.3 變分自編碼器

        變分自編碼器[61]最早在計算機視覺中被提出,從潛在變量的分布中采樣生成具有特定特征的樣本。隱變量是連續(xù)的,可以插值,類似于語音中的隱式風格特征。變分自編碼器以無監(jiān)督的方式學習的語音風格特征可以很容易地分離、縮放和組合。因此,有許多任務使用變分自編碼器來控制合成語音的風格。變分自編碼器在未觀察到的連續(xù)隨機潛在變量和觀察到的數據集之間構建了一個關系,從而利用中間的潛在變量Z實現對X的建模。無法直接求得真正的后驗密度pθ(Z|X)導致了不可微的邊緣似然pθ(X)。為了解決這個問題,引入了qφ(Z|X)近似無法直接求得的后驗pθ(Z|X)。根據變分原理,logpθ(X)可改寫為式(1),其中筆者希望優(yōu)化變分下界L(θ,φ;X)。

        潛變量的先驗pθ(X)假設服從中心各向同性多變量高斯分布N(Z;0,I),其中I是單位矩陣。qφ(Z|X)的一般取值為N (Z;μ(X),σ2(X)I),從而閉合計算。在實際應用中,μ(X)和σ2(X)是通過神經網絡從數據集中學習的,此處的神經網絡可以看作一個編碼器。式(1)中的第一項也即期望項起到了解碼器的作用,解碼器對潛在變量進行解碼來重構X。如果解碼器的輸出在X和Z的多個樣本上取平均,解碼器就可以產生期望的重構。也被稱為重構損失,被稱為KL損失。

        當多種風格或韻律信息糾纏在一起時,要想更好地進行表達性語音合成和控制,有必要在訓練過程中對它們進行分離。例如,CHiVE[41]是一個具有層次結構的條件VAE模型,它可以生成適合聲碼器使用的韻律特征,如基頻、能量和持續(xù)時間,并生成一個韻律空間,從中可以對有意義的韻律特征進行采樣。為了有效地捕獲語言輸入(單詞、音節(jié))的層次性,自動編碼器的編碼器和解碼器部分都是層次的,與語言結構一致,各層都以各自的速率動態(tài)計時。Zhang Y J等人[62]在Tacotron2中添加了一個變分自編碼器網絡,以學習代表語音風格的潛在變量,潛在變量的每個維度代表不同的風格特征。為了進一步理清語音的各種風格特征,基于高斯混合變分自編碼器網絡的GMVAETacotron[42]具有兩個層次的潛在變量。第一個層次是一個離散的潛在變量,代表某種類型的風格(例如說話人ID、干凈/嘈雜);第二個層次是由多元高斯分布近似的連續(xù)潛變量。每個分量代表第一級類別下特征的度(例如噪聲級、說話速率、音調)。該模型能有效地分解和獨立控制語音信號的潛在屬性。然而,這些方法只對語音的整體風格特征進行建模,沒有考慮音素和單詞層面的韻律控制。為了在不同分辨率下對聲學特征進行建模,Sun G等人[63]除了對全局語音特征(如噪聲和通道數)進行建模外,還對單詞級和音素級韻律特征(如基頻、能量和持續(xù)時間)進行了建模,使用具有自回歸結構的條件變分自編碼器來進行,每一層的韻律特征都更具可解釋性,并在所有潛在維度上施加等級制約。

        2.2.4 生成對抗網絡

        生成對抗網絡(GAN)[64]已廣泛用于數據生成任務,如圖像生成[65]、文本生成[66]和音頻生成[43]。GAN由一個用于數據生成的生成器和一個用于判斷生成數據真實性的判別器組成,通過生成器和判別器的不斷博弈提高建模能力。GAN模型如圖6所示。

        圖6 GAN模型

        在語音領域,GAN的生成器主動生成梅爾頻譜,生成虛假頻譜“欺騙”判別器,而判別器需要不斷提高判別能力甄別生成結果的真?zhèn)?,在對抗過程中改善模型生成效果。GAN可以用于風格語音合成。例如,Ma S等人[67]將成對訓練過程、對抗性游戲和協(xié)作性游戲組合到一個訓練方案中,增強了模型的內容風格分離能力和可控性。對抗博弈集中真實的數據分布,協(xié)作博弈最小化原始空間和潛在空間中真實樣本和生成樣本之間的距離。由于單獨的對抗性反饋不足以訓練生成器,當前模型仍然需要比較直接生成的梅爾頻譜和真值所得到的重建損失。Multi-SpectroGAN[68]可以通過將生成器的自監(jiān)督隱藏表示條件化為條件鑒別器來訓練僅具有對抗性反饋的多說話人模型,為訓練生成器提供更好的指導。此外還提出了對抗式風格組合,以更好地概括數據集中未包括的說話風格和文本,它可以從多個梅爾頻譜中學習組合風格嵌入的潛在表示。Multi-SpectroGAN通過對抗式風格組合和特征匹配進行訓練,通過控制和混合不同的說話風格(如持續(xù)時間、音調和能量),合成高度多樣性的梅爾圖譜。GANtron利用生成對抗網絡將情感作為文本到語音模型的輸入,考慮6種不同的情緒(即憤怒、厭惡、恐懼、幸福、悲傷和中性),并提出了一種新的基于引導注意丟失的訓練策略。同時指出未來可以對訓練中的損失函數進行修改,在訓練循環(huán)中集成一個情感分類器作為損失計算的一部分,類似于在計算機視覺領域對知覺損失所做的工作可能會帶來潛在的改進。

        2.2.5 其他網絡

        基于流的模型也被應用于表現性語音合成中,例如Flowtron[69]是一種基于自回歸流的梅爾頻譜生成模型,Flow TTS[70]和Glow TTS[71]利用生成流進行非自回歸梅爾頻譜生成。規(guī)范化流是一種生成模型,它用一系列可逆映射變換概率密度??梢酝ㄟ^基于變量變化規(guī)則的可逆映射序列得到標準的、規(guī)范化的概率分布(如高斯分布),這種基于流的生成模型被稱為規(guī)范化流。在采樣期間,它通過這些變換的逆運算從標準概率分布生成數據。Flowtron將規(guī)范化流應用于Tacotron,通過學習存儲非文本信息的潛在空間來控制語音變化和風格轉換。An X等人[72]采用逆自回歸流(inverse autoregressive flow,IAF)改進變分推理和學習風格表示,以分離說話人及風格信息。

        除了基于流的模型外,Diff TTS[73]是基于擴散模型的表現性語音合成的基礎模型。其基本思想如圖7所示,通過擴散過程和反向過程描述數據與潛在分布之間的映射,即在擴散過程中,波形數據樣本逐漸加入一些隨機噪聲,梅爾頻譜逐漸被高斯噪聲破壞并轉化為潛變量,最終成為高斯噪聲。設x1,…,xT是相同維數的變量序列,其中t=0,1,…,T為擴散時間步長指數。然后,擴散過程通過一系列馬爾可夫變換將梅爾譜圖x0轉化為高斯噪聲xT。每個過渡步驟都預先定義了方差計劃β1,β2,…,βT,每一次變換都是按照假定獨立于文本c的馬爾可夫躍遷概率q(xt|xt-1,c)進行的,其定義如式(4)所示:

        圖7 擴散及反向過程

        整個擴散過程q(x1:T|x0,c)為馬爾可夫過程,可分解為式(5):

        反向過程是一個梅爾頻譜生成過程,正好是擴散過程的反向過程。與擴散過程不同,反向過程的目標是從高斯噪聲中恢復出梅爾譜圖。反向過程定義為條件分布pθ(x0:T-1|xT,c),可根據馬爾可夫鏈性質分解為多個變換,如式(6)所示:

        這是第一次將去噪擴散概率模型應用于非自回歸語音合成。Diff TTS可以在不受模型結構約束的情況下進行穩(wěn)定訓練,在僅使用Tacotron2和Glow-TTS一半參數的情況下合成高質量的語音。高質量且高效的基于去噪擴散的概率模型可能在未來成為表現性語音合成的研究重點,會將韻律風格等特征與去噪擴散相結合以增添語音的表現力。

        3 表現性語音合成任務

        第2節(jié)中提到表現性語音合成需要考慮“誰說”和“如何說”?!罢l說”和“如何說”分別對應表現性語音合成中的多說話人和韻律控制任務,本節(jié)進行具體介紹。此外,雖然表現性語音合成任務已經得到了廣泛的研究,但目前現有的大多數表現性語料資源相對匱乏,無法有效地用于訓練基于深度學習的表現性語音合成模型,需要采用語音增強等技術充分利用有限的表現性語料資源以實現低資源語音合成。

        3.1 多說話人語音合成

        多說話人語音合成是表現性語音合成的一項重要任務。合成多個說話人聲音的一種簡單方法是在輸入中添加一個說話人嵌入向量[74]。說話人嵌入向量可以通過額外訓練參考編碼器獲得。例如,Ye J等人[34]、Arik S O等人[35]分別在Tacotron2、Deep Voice 3[75]中引入說話人編碼器,將參考語音中的說話人信息編碼到固定維說話人嵌入向量中。嵌入向量只能從目標說話人的少量語音片段中提取。用于訓練說話人編碼器的語音數據語料庫只需要包含大量說話人的錄音,但不要求高質量。即使訓練數據中含有少量噪聲,也不會影響音色特征的提取。然而這些方法在合成具有未包含在數據集中的未知說話人的語音時并不是很有效。為了解決這個問題,Cooper E等人[76]在Ye J等人的基礎上,使用可學習字典編碼(learnable dictionary encoding, LDE)提取說話人信息,并將嵌入Prenet層和Tacotron2注意網絡中的說話人作為附加信息。在訓練說話人編碼器時,Nachmani E[77]等人除了使用均方誤差(mean square error,MSE)損失外,還引入了對比度損失項和循環(huán)損失項,使模型能夠用少量音頻合成新說話人的聲音。在訓練說話人編碼器時,除了MSE損失外,Nachmani E等人還提出了對比損失項和循環(huán)損失項,使模型能夠用少量音頻合成新說話人的聲音。此外,一個說話者無論如何不可能模仿所有的說話風格并錄制足夠的錄音。SRM2TTS[33]旨在通過將一個說話人的任何說話風格與另一個說話人的音色相結合,為了實現此任務,提出了一種基于顯式韻律特征的風格建模方法。該方法以Tacotron2為主干,采用細粒度文本韻律預測模塊和說話人控制器。該方法可以避開對單個說話人多風格語料庫的依賴,解決了一個說話人無法表達所有說話風格的問題。

        3.2 低資源表現性語音合成

        近年來,表現性語音合成系統(tǒng)的合成效果非常好,但它們通常需要目標說話人以所需的說話風格進行大量的記錄工作。Huybrechts G等人[78]提出了一種新的3步方法,以避免記錄大量目標數據的昂貴操作,只需15 min的記錄就可以構建出富有表現力的聲音。首先通過語音轉換增加數據,利用其他說話人以所需的說話風格錄制的錄音;然后在可用記錄的基礎上使用該合成數據訓練TTS模型;最后對該模型進行微調,進一步提高質量。利用語音轉換的數據增強已成功應用于低資源表現性語音合成。Terashima R等人[79]提出了一種結合基音偏移和語音轉換技術的新的數據增強方法。由于基音偏移數據增強能夠覆蓋各種基音動態(tài),因此它極大地穩(wěn)定了語音轉換和語音合成模型的訓練。Ribeiro M S等人[80]通過語音轉換的數據增強解決從文本到語音的跨說話人風格傳輸問題,該方法假設有一個來自目標說話人的中性的非表現性數據語料庫,包含來自不同說話人的表現性數據。首先從不同說話人的表現性數據集中利用語音轉換生成目標說話人的高質量數據;然后將語音轉換數據與目標說話人的自然數據合并,用于訓練單說話人多風格TTS系統(tǒng)。Shah R等人[81]在采用語音轉換數據增強的基礎上,將基于注意的自回歸語音合成模型改為非自回歸模型,用外部持續(xù)時間模型代替注意,并且增加基于條件生成對抗網絡的微調步驟。Lajszczak M等人[82]通過解析文本和音頻中的樹成分替換創(chuàng)建新的訓練樣本,以解決擴充樣本分布不均的問題。為語音合成引入一種新的數據增強技術,顯著增加模型中文本條件的多樣性,這是分布增強技術在基于神經網絡的語音合成中的首次應用,該方法同時減少了模型對輸入文本的過度擬合。

        4 表現性語音合成研究方向展望

        基于以上對表現性語音合成方法的介紹和總結,可以預測未來語音合成領域至少會有如下發(fā)展方向。

        (1)在表現性語音合成中以精確、精細的方式控制合成語音的風格。在談話中,情緒、語調和節(jié)奏等講話風格經常發(fā)生變化。然而,目前的神經語音合成系統(tǒng)無法單獨精確地控制語音的這些風格特征。如何在詞級和短語級上實現語音的細粒度風格控制是未來語音合成研究的重點。

        (2)數據高效的語音合成。在表現性語音合成中由于情感語音數據難以記錄和標注,如何有效地利用數量和質量有限的情感語音數據來訓練語音合成模型,使其能夠學習語音中各種風格特征的表示方法,也是語音合成領域亟待解決的問題。此外,許多低資源語言缺乏訓練數據。如何利用無監(jiān)督/半監(jiān)督學習和跨語言遷移學習來幫助低資源語言是一個有趣的方向。

        (3)強大的生成模型。語音合成是一項生成波形和/或聲學特征的生成任務,表現性語音合成以這些生成模型為基礎。功能強大的生成模型可以更好地處理這些特征。盡管基于VAE、GAN的高級生成模型已被用于聲學模型、聲碼器和完全端到端模型,但對更強大、更高效的生成模型的研究工作正在吸引人們進一步提高合成語音的質量。

        (4)語音合成和圖像生成有很大的相似性,可以將其他任務中使用的深度學習方法應用到語音合成中作為生成任務。語音合成中使用的許多方法受到圖像生成方法的啟發(fā),生成具有特定風格的圖像和語音的方法也非常相似。其次,由于識別和生成是雙重任務,可以采用多任務學習將識別和生成模型結合起來,以相互改進,減少訓練過程中對標記數據的需求。除了結合語音合成與語音識別之外,還可以將說話人識別與多說話人語音合成相結合,并將語音情感識別與情感語音合成相結合用于雙重訓練。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        久久久人妻丰满熟妇av蜜臀| 九九热在线视频观看这里只有精品| 国产成人啪精品| 二区三区亚洲精品国产| 成人性生交大全免费看| 色婷婷亚洲一区二区三区| 国产自偷亚洲精品页65页| 狠狠丁香激情久久综合| 国产av午夜精品一区二区入口| 一区二区三区字幕中文| 99久久久无码国产精品6| 99成人精品| 日本一区二区在线看看| 中国一级黄色片久久久| 国产婷婷色综合av蜜臀av| 国产成人77亚洲精品www| 精品一区二区亚洲一二三区| 日本久久伊人特级黄色| 蜜桃麻豆www久久囤产精品| 国产亚洲AV无码一区二区二三区| 国产av黄色一区二区| 精品无码国产一区二区三区麻豆| 国产农村乱子伦精品视频| 欧美中文字幕在线看| 国产精品后入内射日本在线观看| 美女露出粉嫩小奶头在视频18禁| 真人与拘做受免费视频| 丁香六月久久| 中文字幕一区二三区麻豆| 无码人妻丰满熟妇区五十路| 国产成人av一区二区三区无码| 中文字幕一区二区人妻痴汉电车 | 蜜臀av一区二区三区免费观看| 一本一本久久aa综合精品 | 欧美丝袜秘书在线一区| 二区视频在线免费观看| 无码中文字幕免费一区二区三区| 中文字幕不卡在线播放| 视频一区二区免费在线观看| 无码h黄肉3d动漫在线观看| 法国啄木乌av片在线播放|