亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合信息擾動與特征解耦的單樣本語音轉換

        2024-10-14 00:00:00王光劉宗澤董浩姜彥吉
        計算機應用研究 2024年10期

        摘 要:單樣本語音轉換的特性是利用單條目標說話人的語音樣本即可實現(xiàn)身份的轉換,但由于聲學特征呈現(xiàn)復雜的相互作用和動態(tài)變化,現(xiàn)有方法難以充分將單樣本語音中的說話人音色與其他聲學特征解耦,導致轉換音頻在聽覺上仍與源說話人的音色特征相似,存在說話人音色泄露情況。為此提出一種融合信息擾動與特征解耦的單樣本語音轉換模型,即IPFD-VC模型。首先,引入信息擾動模塊對語音信號進行三次擾動操作,去除輸入內容和韻律編碼器中的冗余信息;其次,將處理后的語音信號送入各編碼器,并結合最小化互信息策略進一步解耦聲學特征,降低不同特征與說話人音色特征的相關性;最后通過解碼器及聲碼器輸出轉換音頻。實驗結果表明:IPFD-VC模型轉換音頻的語音自然度和說話人相似度分別達到3.72和3.68,與目前先進的UUVC模型相比,梅爾倒譜失真降低0.26 dB。該模型能夠有效對聲學特征進行解耦,捕獲目標說話人音色特征,同時保持源語言內容和韻律變化,降低說話人音色泄露風險。

        關鍵詞:單樣本語音轉換; 信息擾動; 特征解耦; 說話人音色泄露

        中圖分類號:TP391 文獻標志碼:A

        文章編號:1001-3695(2024)10-028-3081-06

        doi:10.19734/j.issn.1001-3695.2024.02.0034

        One-shot voice conversion integrating informationperturbation and feature decoupling

        Wang Guang1, Liu Zongze1, Dong Hao2, Jiang Yanji1

        (1.College of Software, Liaoning Technical University, Huludao Liaoning 125105, China; 2.Suzhou Automotive Research Institute, Tsinghua University, Suzhou Jiangsu 215134, China)

        Abstract:The characteristic of one-shot voice conversion is the ability to transform identity using only a single speech sample from the target speaker. However, the intricate interactions and dynamic variations of acoustic features pose challenges for existing methods to fully disentangle the speaker’s timbre from other acoustic features, resulting in the leakage of the original speaker’s timbre in the converted audio. To tackle this challenge, this paper proposed the IPFD-VC model to incorporate information perturbation and feature decoupling. The model initiated three perturbation operations to the voice signal through an information perturbation module in order to remove redundant information from input and the prosody encoder. Then it enabled to feed the processed signal into each encoders. The model employed a strategy of minimizing mutual information to further decouple the acoustic features, thereby diminishing their correlation with the speaker’s timbre characteristics. The decoder and vocoder subsequently output the convert audio. The experiments show that the IPFD-VC model achieves scores of 3.72 for voice naturalness and 3.68 for speaker similarity. In comparison to the advanced UUVC model, the model reduced the Mel-cepstral distortion by 0.26 dB. The IPFD-VC model effectively decouples acoustic features, captures the target speaker’s timbre, preserves the source language content and rhythmic variations, and mitigates the risk of speaker timbre leakage.

        Key words:single-sample voice conversion; information perturbation; feature decoupling; speaker voice leakage

        0 引言

        語音轉換(voice conversion)是一種在保持語言內容和韻律變化的情況下,將源說話人的聲音轉換為目標說話人的技術[1],在多媒體娛樂、智能家居、醫(yī)療輔助等多個領域中具有廣泛的應用。隨著深度學習的發(fā)展,研究方向已從低效的參數(shù)方法[2,3]轉向基于神經網(wǎng)絡的語音轉換技術[4,5],語音轉換質量得到較大提升,但是需要豐富且高質量的標準錄音數(shù)據(jù)集進行訓練。然而在個性化語音交互的實際場景中,目標說話人的語音樣本采集難度大、成本高,用于深度學習模型訓練的樣本數(shù)不足,易導致過擬合。

        因此如何在有限的樣本下進行高質量語音轉換引發(fā)了人們的探索。單樣本語音轉換(one-shot voice conversion)又被稱為任意到任意(any-to-any)的語音轉換,旨在轉換過程中,僅使用來自任意目標說話人的單條語音樣本,即可實現(xiàn)從任何源說話人到任意目標說話人的身份轉換,該技術對語音樣本數(shù)量要求較低,因此更加適用于實際場景中。為實現(xiàn)單樣本語音轉換,較為流行的方法是采用特征解耦,模型需要學習源說話人與目標說話人語音中所有的潛在聲學特征,并將說話人音色特征與其他聲學特征盡可能地分離,解耦是否充分對于實現(xiàn)單樣本語音轉換至關重要。早期特征解耦方法主要采用聯(lián)合說話人編碼器,將說話人音色特征與內容特征分離,AutoVC[6]通過結合生成對抗網(wǎng)絡(GAN)和條件變分自動編碼器(CVAE),在內容編碼器上提取不同維度的瓶頸特征,使內容特征與說話人音色特征進行分離。Liu等人[7]采用i-vector表示源說話人音色特征,并利用語音后驗圖(PPG)表示與說話人無關的特征,以實現(xiàn)特征的解耦。AGAIN-VC[8]通過自適應實例歸一化,可以較好地分離說話人音色特征和內容特征。矢量量化 (VQ)是一種有效的數(shù)據(jù)壓縮技術,可以將連續(xù)數(shù)據(jù)量化為離散數(shù)據(jù)[9]。VQVC[10]僅通過重建損失解開內容特征和說話人音色特征。VQVC+[11]通過學習矢量量化表示,以及使用U-Net網(wǎng)絡結構進一步改進了內容特征分離。但由于VQ的離散性,內容信息提取完整較為困難。Zhang等人[12]對源說話人音色特征進行解耦,并引入目標說話人嵌入進行對抗性訓練,保留了較好的內容特征。

        為了提升轉換音頻的自然度,科研人員開始嘗試對韻律特征解耦,Helander等人[13]研究發(fā)現(xiàn)韻律在構成完整的語音中起著關鍵作用,與表達內容密切相關,是提高轉換音頻自然度的重要因素之一。Wang等人[14]將經過目標說話人歸一化的音高輪廓輸入解碼器,并進行語音重建。SpeechSplit[15]對內容、說話人音色和音高進行獨立建模,通過分階段地將對應特征輸入編碼器,并手動微調從中提取的瓶頸特征,以實現(xiàn)更為有效的解耦。AutoPST[16]利用基于相似性的重采樣技術,通過自動編碼器對韻律特征進行單獨建模。SpeechSplit2.0[17]與SpeechSplit具有相似的結構,無須調整自動編碼器的瓶頸特征。SRDVC[18]利用基于梯度反轉層的對抗性互信息學習,對音高及節(jié)奏進行建模。最新的研究UUVC[19]采用級聯(lián)模塊化結構,旨在實現(xiàn)音調和說話人音色的解耦,該系統(tǒng)通過自監(jiān)督學習的方法,利用離散語音單元作為語言表示,從而進行單樣本語音轉換。

        上述方法為高質量單樣本語音轉換提供良好的開端,但解耦程度難以衡量,同時在訓練過程中未對說話人音色、內容和韻律之間的相關性進行約束,導致解耦不充分,造成說話人音色泄露的問題[20],即轉換音頻呈現(xiàn)源說話人或介于兩者之間的音色,從而導致語音轉換性能下降。

        在前人的研究基礎上,結合對語音聲學特征的分析,如說話人音色、內容和韻律特征,設計融合信息擾動與特征解耦的單樣本語音轉換模型,即IPFD-VC模型,采用端到端結構。IPFD-VC在時域和頻域上對語音信號進行三次信息擾動[21],對語音信號中冗余的聲學特征進行調整,引導編碼器專注于學習穩(wěn)定特征,并排除無關信息,為后續(xù)解耦提供堅實基礎;在訓練期間,通過最小化互信息的變分對比對數(shù)上界(vCLUB)[22],進一步將聲學特征進行解耦,減少不同聲學嵌入之間的相關性。

        本文的主要工作如下:a)設計了一種新穎的單樣本語音轉換模型,可在個性化語音數(shù)據(jù)有限的實際場景中,實現(xiàn)任意說話人之間的語音轉換;b)提出一種融合信息擾動與結合最小化互信息策略的特征解耦的方法,能夠對提取到的特征進行相關性約束,使編碼器專注于處理對應的聲學特征。實驗結果表明,IPFD-VC模型轉換的音頻擁有更好的語音相似度和語言自然度,可以有效緩解說話人音色泄露問題。

        1 IPFD-VC模型

        本章介紹融合信息擾動與特征解耦的高質量單樣本語音轉換模型的過程方法。

        單樣本語音轉換模型的性能取決于對聲學特征的解耦程度以及重構能力。由于聲學特征之間解耦不充分,從源說話人語音中提取的內容特征與韻律特征仍摻雜源說話人的音色信息,并與目標說話人的音色特征一同送入解碼器和聲碼器進行語音轉換,導致轉換后的音頻在聽覺上仍與源說話人的音色特征相似,造成說話人音色泄露。IPFD-VC為消除轉換音頻中說話人音色泄露問題,首先采用信息擾動模塊,去除送入內容編碼器和韻律編碼器中的冗余信息,使編碼器專注于提取對應類別特征;其次使用最小化互信息的變分對數(shù)上界,進一步將說話人音色特征與其他聲學特征進行解耦,IPFD-VC模型框架如圖1所示。

        1.1 信息擾動

        語音中融合多種聲學特征,展現(xiàn)出復雜的相互作用和動態(tài)變化,Choi等人[23]將未經處理的語音梅爾譜圖送入wav2vec內容編碼器提取特征,并將其輸入神經網(wǎng)絡進行訓練,成功實現(xiàn)梅爾譜圖的重構。這證實內容編碼器不僅捕捉到豐富的內容信息,同時摻雜了與音調和說話人身份相關的特征[24]。當僅使用音高編碼器進行特征提取,并嘗試重建梅爾譜圖時,仍然可以觀察到與說話人身份相關的信息[25],導致說話人音色特征泄露。為了提高模型性能,并確保各編碼器能夠專注學習特定目標,本模型采用信息擾動方法,有針對性地消除源語音中存在的冗余信息,從而避免模型學習無關特征。

        具體而言,內容編碼器旨在從源語音中提取與內容相關的特征,而韻律編碼器專注于捕捉與韻律有關的特征。IPFD-VC模型在訓練內容編碼器和韻律編碼器之前,設計了信息擾動模塊,包含三種語音信號擾動函數(shù),確保模型的訓練過程更為精準和高效。通過引入共振峰移位(fs)[26]函數(shù),從均勻分布U(1.2,1.5)中隨機選取共振峰移位的比率,對源語音的共振峰進行調整,從而直接改變說話人的音色特質。通過引入?yún)?shù)均衡器(peq)[27]進行隨機頻率整形,進一步為防止說話人音色泄露到內容與音高中,刪除與說話人相關的特征,隨機頻率整形過程描述如下:

        HPEQ=HLSHHS∏8i=1HPeaki(1)

        其中:HLS是低傾斜濾波器;HPeak代表峰值濾波器;HHS是高傾斜濾波器,每個濾波器都是二階IIR濾波器。HLS和HHS的截止頻率分別固定為60 Hz和10 kHz。HPeaki的中心頻率以均勻分布在傾斜濾波器對數(shù)尺度上。

        音調是韻律表達的關鍵要素之一,通過引入音調隨機化(pr)[26]技術,從均勻分布U(1.1,1.6)和U(1.1,1.5)中隨機選取基音平移比和基音范圍比,使得源語音擺脫對特定音調范圍的依賴,消除韻律特征,從而確保語音信號僅保留內容信息。

        如圖2所示:給定一段語音X,提取梅爾譜圖X={x1,x2,…,xT},其中T是語音幀的總數(shù),而Xc、Xs和Xr分別表示包含內容、說話人音色和韻律信息的梅爾譜圖。Xs~和Xr~分別代表包含使用信息擾動模塊進行處理后的說話人音色信息和韻律信息的梅爾譜圖。IPFD-VC模型的信息擾動模塊具體實現(xiàn)過程為:將語音沿時間維度進行兩段信息擾動操作,第一階段使用共振峰移位與隨機頻率整形的組合,消除源說話人的音色,而保留其韻律特性;該階段獲取韻律特征Xr的過程描述如下:

        Xr=peq(fs(X))(2)

        其中:Xr不包含源語音中與說話人相關的信息,隨后將Xr作為韻律特征輸入到韻律編碼器中。

        在第二階段采用音調隨機化的方法,消除源說話人音高,同時確保內容信息得以保留,該階段獲取內容特征Xc的過程描述如下:

        Xc=pr(peq(fs(X)))(3)

        其中:輸出的Xc不包含源語音的說話人音色信息及韻律信息。將調整后的Xc送入內容編碼器進行特征提取,使得內容編碼器能夠專注于學習和捕捉語言內容特征。

        1.2 模型架構

        在IPFD-VC模型結構中,包含信息擾動模塊、編碼器、解碼器和聲碼器四個核心部分。其中編碼器由內容編碼器、韻律編碼器和說話人編碼器組成。

        在SpeechSplit的模型基礎上,內容編碼器(Ec)沿用SpeechSplit的架構進行內容特征提取,將經過擾動處理的語音(Xc,Xr~,Xs~)參數(shù)化為梅爾譜圖(Xc,Xr~,Xs~),并將其輸入到卷積層進行特征提取,隨后送入兩個雙向LSTM層進行前后文整合,最后通過下采樣將時間維度減半至T/2,在保留內容特征的同時,提高模型的計算效率和性能,提取的內容嵌入(Zc)表示如下:

        Zc=Ec(Xc,Xr~,Xs~)(4)

        為了增加轉換音頻的自然度,IPFD-VC模型中引入韻律編碼器(Er),對話語級的韻律特征進行單獨建模。首先將經過擾動處理的語音(Xr,Xs~)參數(shù)化為梅爾譜圖(Xr,Xs~),并將其輸入到韻律編碼器中。該編碼器由三個5×1的卷積層構成,采用ReLU激活函數(shù),并在每層之后進行組歸一化處理,該方法對小批量或大尺寸數(shù)據(jù)具有優(yōu)勢,可提高訓練速度并增強模型泛化能力。經過組歸一化后的輸出被送入一個雙向LSTM層,以減少特征維度。韻律編碼器的詳細設計如圖2(b)所示,提取的韻律嵌入(Zr)表示如下:

        Zr=Er(Xr,Xs~)(5)

        說話人編碼器由以下四個部分組成:ConvBank層、三個一維卷積與激活函數(shù)的組合、線性層與激活函數(shù)的組合,以及平均池化層。ConvBank層用于從輸入序列中精確提取局部特征和上下文信息,擴大感受野范圍,進而增加對長時序信息的捕獲能力,為后續(xù)階段提供更深入和全面的特征表示;一維卷積與ReLU激活函數(shù)組合優(yōu)化特征提取的非線性能力;平均池化層強化對全局信息的關注,精確捕捉說話人身份特征;線性層與ReLU激活函數(shù)進一步提升映射能力,確保說話人編碼器的高效性和準確性。說話人編碼器的詳細設計如圖2(b)所示,提取的說話人嵌入(Zs)表示如下:

        Zs=Es(Xs)(6)

        為確保內容、說話人和韻律嵌入具有相同的時間維度,采取以下策略:將內容嵌入上采樣至T幀,說話人嵌入被復制T次,將三種嵌入進行連接,并一同送入解碼器。解碼器對隱藏嵌入進行沿通道維度連接,隨后將其送入兩個雙向LSTM層、線性層以及Postnet層。線性層用作調整特征維度,Postnet層通過其卷積操作進一步細化和優(yōu)化解碼器的輸出,解碼器詳細結構如圖2(c)所示。解碼器Ds重建語音頻譜圖S的表示如下:

        S=Ds(Zc,Zs,Zr)(7)

        在訓練過程中,解碼器Ds的輸出旨在學習準確地重構輸入的頻譜圖S,為實現(xiàn)這一目標,解碼器與編碼器聯(lián)合訓練,通過最小化重建損失來優(yōu)化模型性能:

        LDs=Euclid Math TwoEAp[‖S-X‖21+‖S-X‖22](8)

        1.3 損失函數(shù)

        互信息(mutual information,MI)描述的是衡量隨機變量相互依賴的程度。兩個不同變量之間依賴關系的度量可以表述為

        I(X,Y)=∫X∫YP(X,Y)logP(X,Y)P(X)P(Y)(9)

        其中:P(X)和P(Y)分別是X和Y的邊緣分布;P(X,Y)表示X和Y的聯(lián)合分布。通過對比學習的策略,利用正樣本和負樣本之間的條件概率差異,使用變分對比對數(shù)上界(vCLUB)作為計算不相關信息的互信息上限的估計量?;バ畔⒌膙CLUB無偏估計定義為

        I^(X,Y)=Euclid Math TwoEApp(X,Y)[log qθ(X|Y)]-

        Euclid Math TwoEApp(X)Euclid Math TwoEApp(Y)[log qθ(X|Y)](10)

        其中:X,Y∈{Zc,Zs,Zr},qθ(X|Y)是一個變分分布,用參數(shù)θ來近似p(X|Y)。無偏估計樣本{xi,yi}的vCLUB的無偏估計量表示為

        I^(X,Y)=1N2∑Ni=1∑Nj=1[log qθ(xi|yi)-log qθ(xj|yi)](11)

        其中:xi、yi∈{Zci,Zsi,Zri },通過最小化式(11),可以有效減少不同語音表示之間的相互依賴。

        本模型引入說話人MI損失,在訓練過程中,可以通過最小化MI損失來降低內容、韻律特征與說話人音色特征之間的相關性,解決特征之間的信息交叉或泄露問題。將說話人MI損失應用于內容嵌入(Zc)、說話人嵌入(Zs)、韻律嵌入(Zr),說話人MI損失(LSMI),如式(12)所示。

        LSMI=I^(Zs,Zc)+I^(Zs,Zr)+I^(Zc,Zr)(12)

        在每次迭代的訓練中,首先進行變分近似網(wǎng)絡的優(yōu)化,其目標是最大化給定條件下的對數(shù)似然函數(shù)log qθ(X|Y),隨后進行IPFD-VC模型的優(yōu)化。IPFD-VC模型的總體損失可以計算為

        LALL=LDs+λSMILSMI(13)

        其中:λSMI是來調節(jié)說話人MI損失以增強解耦的權重參數(shù)。

        1.4 IPFD-VC模型工作流程

        IPFD-VC模型的工作流程包括訓練階段和轉換階段。在模型的訓練階段,首先對源語音和經過擾動處理后的語音進行預處理并提取梅爾譜圖,隨后將梅爾譜圖分別輸入說話人編碼器、韻律編碼器和內容編碼器中,以分離和學習語音中的不同特征,通過迭代計算損失函數(shù)不斷優(yōu)化模型,最后訓練得到能夠精確捕捉和再現(xiàn)語音特征的說話人編碼器Es、韻律編碼器Er、內容編碼器Ec和解碼器Ds。

        算法1 IPFD-VC模型的訓練算法

        輸入:梅爾譜圖(Xc,Xr~,Xs~)、(Xr,Xs~)、Xs,學習率參數(shù)為α和β。

        輸出:訓練得到Es、Er、Ec和Ds。

        a)i=1 //設置迭代次數(shù)

        b)for i≤N do

        c) Zc←f{(Xc,Xr~,Xs~);Ec};Zr←f{(Xr,Xs~);Er};

        Zr←f{Xs;Es};

        d) θX,Y←θX,Y+αθX,YLX,Y,X,Y∈{Zc、Zr、Zs}

        //每次進行更新時, 計算對數(shù)似然函數(shù)LX,Y=log qθ(X|Y)

        e) θ←θ-βθLALL,θ∈{Es、Er、Ec、Ds}

        //每次進行更新時, 計算模型的整體損失LALL

        f)end for

        g)return Es、Er、Ec、Ds

        在轉換階段,將源說話人和目標說話人的語音同時輸入進IPFD-VC模型中,得到由編碼器重構的轉換音頻梅爾譜圖,隨后,將重構的梅爾譜圖輸入到預先訓練好的神經聲碼器中,最終生成轉換音頻。

        2 實驗及結果分析

        2.1 實驗設置

        實驗選取語音轉換研究主流使用的CSTR-VCTK語料庫[28],該數(shù)據(jù)集包括109位英語說話人的語音樣本,每位說話人閱讀約400個句子。隨機選取89位說話人作為訓練集,10位說話人作為驗證集,其余10位說話人用于測試集。

        將所有語音下采樣至16 kHz,對音頻進行預加重、分幀,并進行加窗操作,采用窗口大小為1 024,滑動大小為256的Hann窗,并進行短時傅里葉變換后,隨后采用FFT大小為1 024的短時傅里葉變換,用來計算梅爾譜圖,使用跨度為90 Hz~7.6 kHz的80通道梅爾濾波器組將STFT幅度轉換為梅爾標度。

        IPFD-VC模型在單個NVIDIA 3060 GPU上進行訓練,并使用ADAM優(yōu)化器,學習率為E-4,β1=0.9,β2=0.98,批量大小為16,設置λSMI=0.01,并使用預訓練的WaveNet聲碼器[29]將輸出的梅爾譜圖轉換回波形。

        在實驗中選取AutoVC[6]、AGAIN-VC[8]、SRDVC[18]和UUVC[19]等先進的基線模型進行比較,所有基線模型均使用與IPFD-VC相同的訓練集、驗證集和測試集。

        2.2 語音轉換效果評價

        2.2.1 主觀評價

        實驗采用的主觀評價指標為語音自然度平均意見得分(MOS)和說話人相似度平均意見得分(SMOS)。測試人員使用五分制對轉換后的語音進行評分,評分標準如下:5分代表“優(yōu)秀”,4分表示“良好”,3分為“一般”,2分對應“差”,1分表示“很差”。分數(shù)越高表明轉換方法性能越好,轉換音頻聽起來更自然,轉換音頻與目標說話人的音色更為接近。

        主觀測試共有15名20~30歲的研究生聽眾參與,其中10人(5男5女)具有語音測評經驗,另外5人(2男3女)則為隨機選取。在轉換場景為Seen-Seen、Seen-Unseen和Unseen-Unseen的測試中,Seen代表說話人出現(xiàn)在訓練集中,Unseen表示說話人從未在訓練集中出現(xiàn)過,即任意說話人。每個場景分別隨機選取10個語音對,每個語音對包含源音頻、目標說話人音頻,以及使用IPFD-VC與基線模型分別對同一條語音進行轉換后得到的音頻。15名聽眾采用MOS評分與SMOS評分依次進行評價。

        在語音自然度測試中,聽眾需聽取每個語音對中,按照隨機順序排列的不同模型轉換產生的音頻,對音頻質量進行打分,并計算MOS評分。在說話人相似度測試中,給出源說話人和目標說話人的真實語音,隨后聽眾需要聽取每個語音對中按照隨機順序排列的不同模型轉換產生的音頻,與真實語音的音色進行對比并打分,計算SMOS評分,實驗采用的置信區(qū)間為95%。語音自然度測試和說話人相似度測試的實驗結果如表1所示。

        在三種不同的場景中,IPFD-VC的MOS評分分別達到了3.72、3.67和3.68,評分僅在Seen-Seen場景中低于UUVC模型0.02,其余場景均超越三種基線模型,在Unseen-Unseen場景中,領先UUVC模型0.10,表明IPFD-VC模型在音頻轉換質量方面具備的顯著優(yōu)勢,將通過擾動處理后的語音送入話語級韻律建模的編碼器,能夠準確地捕捉源說話人語音的韻律和細節(jié),使得轉換后音頻更加真實和自然。

        IPFD-VC的SMOS評分在Seen-Seen和Seen-Unseen的情境中領先三種基線模型0.03以上;在Unseen-Unseen的情境中,IPFD-VC較UUVC提升0.07,呈現(xiàn)出領先的性能水平。值得注意的是,IPFD-VC在這三種情境中的SMOS評分都非常接近,這表明IPFD-VC能夠有效地分離聲學特征,并成功將目標說話人的音色特征轉移至源語音中。這不僅提高了轉換音頻的說話人相似度,同時降低說話人音色特征泄露的風險。

        2.2.2 客觀評價

        在本實驗中,客觀評價指標使用以下三種方法:梅爾倒譜失真(MCD)、單詞錯誤率(WER)和logF0的皮爾森相關系數(shù)(logF0 PCC)。

        梅爾倒譜失真(MCD): 其是一種衡量語音信號質量的指標,計算公式如下。

        MCD=10ln 10 2∑Nn=1(Cc-Ct)2(14)

        其中:Ct表示目標語音的梅爾倒譜系數(shù);Cc表示轉換后的語音梅爾倒譜系數(shù)。MCD數(shù)值越低,失真程度越小,代表轉換音頻更接近自然語音,同時MCD用于計算轉換語音頻譜和真實目標語音頻譜之間的距離,也可以代表轉換音頻與目標說話人的相似程度。

        單詞錯誤率(WER):驗證轉換音頻是否能夠保留源語音的語言內容,其中WER是由ESPnet2模型中基于Transformer的自動語音識別(ASR)模塊[30]計算得到,該模塊由Librispeech語料庫進行訓練。

        logF0的皮爾森相關系數(shù)(logF0 PCC):用于驗證語音信號中基頻(F0)的相關性,即驗證轉換音頻的語調變化,計算源語音和轉換后語音的F0之間的皮爾森相關系數(shù),并對系數(shù)進行對數(shù)轉換,將取值控制在[-1,1],其中1表示完全正相關,-1表示完全負相關,0表示沒有線性關系。在轉換場景為Seen-Seen、Seen-Unseen和Unseen-Unseen的測試中,每個場景分別隨機選取50個語音對,并計算三種客觀指標的平均值,實驗結果如圖3所示。

        在MCD對比實驗中,IPFD-VC模型呈現(xiàn)出最低的MCD值,僅為5.48 dB,相較于性能先進的UUVC模型,IPFD-VC的MCD值減少0.26 dB,證明IPFD-VC模型可以提高轉換語音的質量,提升語音自然度。

        在進行WER測試中,IPFD-VC與UUVC相比具有相似的單詞錯誤率,與SRDVC相比,單詞錯誤率降低3.66%,并遠低于AutoVC和AGAIN-VC模型,進一步證明了其在信息擾動和特征解耦過程中,能夠更有效地保留源語音的內容信息,保持內容相似度。

        在logF0 PCC的對照實驗中,IPFD-VC模型與SRDVC展現(xiàn)出相似的性能,都能有效地轉換并保留從源語音到目標語音的韻律特性。但SRDVC較IPFD-VC在數(shù)值上提升0.015,因為SRDVC的音高表示直接從給定的音高輪廓中提取的,而未進行特征解耦與編碼過程。IPFD-VC仍高于另外三種基線模型,較高的logF0 PCC表明經過擾動處理后的音頻可以很好地保持目標說話人的韻律特征,從而提升語音的相似度和可理解性。

        2.3 頻譜分析

        圖4顯示了本模型在轉換階段生成的梅爾譜圖,其中圖(a)是來自女性源說話人的梅爾譜圖,圖(b)是男性目標說話人的梅爾譜圖,圖(c)是轉換音頻的梅爾譜圖。橫軸代表時間,縱軸代表頻率。藍色為音高曲線,黃色為能量曲線。

        如圖所示,可以觀察到源語音的梅爾譜圖峰值間隔相對較短,而經過IPFD-VC轉換后的梅爾譜圖顯示其峰值間隔更接近于目標說話人。在低頻區(qū)域,轉換語音的條紋寬度和波動趨勢更加接近目標說話人,這表明在特定頻率范圍內的聲學特征得到了有效轉換。而在高頻區(qū)域,源說話人的能量曲線呈下降趨勢,而IPFD-VC轉換后的語音與目標說話人的能量曲線更為相似和飽滿,表明能夠很好地保留目標說話人的韻律特征。

        在音調方面,源說話人的基頻曲線具有明顯的尖銳特點,而經過IPFD-VC轉換后的語音基頻曲線與目標說話人均略微平緩,符合源說話人與目標說話人的性別特性。實驗表明IPFD-VC可以進一步保持源語言內容和韻律變化,增加說話人相似性,減少說話人音色特征泄露問題。

        2.4 消融實驗

        本節(jié)對單樣本語音轉換任務中各模塊的性能影響進行深入的分析。消融實驗在Unseen-Unseen情境中進行消融實驗,驗證信息擾動模塊和說話人MI損失模塊對模型性能的影響。w/o IP表示去除信息擾動模塊,w/o IP(fs)表示去除信息擾動共振峰移位模塊,w/o IP(pr)表示去除信息擾動音調隨機化模塊,w/o IP(peq)表示去除信息擾動隨機頻率整形模塊,w/o LSMI表示去除說話人MI損失模塊,結果如表2所示。

        在MCD得分方面,去除說話人MI損失模塊與去除整體信息擾動模塊相比僅相差0.07 dB,與IPFD-VC相比MCD上升0.74,表明這兩個模塊對保持轉換語音頻譜和真實目標語音頻譜之間的距離都具有積極意義,能夠進一步進行特征解耦,并擁有較好的重構能力。

        在WER得分方面,去除整體信息擾動模塊與去除共振峰移位+隨機頻率整形模塊的效果相似,與IPFD-VC相比單詞錯誤率上升了9.89%,這一變化相比去除說話人MI損失模塊的影響更為顯著,表明該模塊能夠很好地去除冗余信息,對于保留語音內容具有重要作用。

        在logF0 PCC得分方面,去除整體信息擾動模塊和去除音調隨機化模塊的效果相似,logF0 PCC下降至0.689,表明音調隨機化模塊能夠很好地去除冗余信息,為后續(xù)模塊進一步特征解耦提供了支持。

        3 結束語

        本研究針對現(xiàn)有單樣本語音轉換模型在執(zhí)行轉換任務過程中出現(xiàn)的說話人音色泄露問題,提出了IPFD-VC模型。該模型通過結合信息擾動和最小化互信息策略,有效減少不同聲學特征之間的相互依賴,使得編碼器能夠更專注于處理特定的聲學特征。實驗結果表明,相較于現(xiàn)有先進的基線模型,IPFD-VC模型的轉換音頻在主觀評價中,說話人相似度和語言自然度方面均表現(xiàn)出顯著優(yōu)勢,在客觀評價中,MCD僅為5.48 dB,單詞錯誤率降低3.66%,logF0 PCC與基線模型具有相似的性能。在消融實驗中,表明信息擾動模塊與最小化互信息策略能夠提升特征解耦的性能,同時有效地降低了說話人音色特征泄露的潛在風險。盡管如此,轉換后的語音與真實目標語音仍存在一定的差距,在未來的工作中,需要進一步提高模型性能,以達到無限接近真實語音的效果,能夠滿足個性化真實場景的需要。

        參考文獻:

        [1]Sisman B, Yamagishi J, King S, et al. An overview of voice conversion and its challenges: from statistical modeling to deep learning[J]. IEEE/ACM Trans on Audio, Speech, and Language Proces-sing, 2020, 29: 132-157.

        [2]Godoy E, Rosec O, Chonavel T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 20(4): 1313-1323.

        [3]Wu Zhizheng, Virtanen T, Chng E S, et al. Exemplar-based sparse representation with residual compensation for voice conversion[J]. IEEE/ACM Trans on Audio, Speech, and Language Proces-sing, 2014, 22(10): 1506-1521.

        [4]Fang Fuming, Yamagishi J, Echizen I, et al. High-quality nonparallel voice conversion based on cycle-consistent adversarial network[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2018: 5279-5283.

        [5]Ding Shaojin, Gutierrez-Osuna R. Group latent embedding for vector quantized variational autoencoder in non-parallel voice conversion[C]//Proc of InterSpeech. 2019: 724-728.

        [6]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. AutoVC: zero-shot voice style transfer with only autoencoder loss[C]//Proc of International Conference on Machine Learning. 2019: 5210-5219.

        [7]Liu Songxiang, Zhong Jinghua, Sun Lifa, et al. Voice conversion across arbitrary speakers based on a single target-speaker utterance[C]//Proc of InterSpeech. 2018: 496-500.

        [8]Chen Yenhao, Wu Dayi, Wu Tsunghan, et al. AGAIN-VC: a one-shot voice conversion using activation guidance and adaptive instance normalization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2021: 5954-5958.

        [9]Chorowski J, Weiss R J, Bengio S, et al. Unsupervised speech representation learning using WaveNet autoencoders[J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2019, 27(12): 2041-2053.

        [10]Wu Dayi, Lee Hungyi. One-shot voice conversion by vector quantization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2020: 7734-7738.

        [11]Wu Dayi, Chen Yenhao, Lee H. VQVC+: one-shot voice conversion by vector quantization and U-Net architecture[EB/OL]. (2020-06-07). https://arxiv.org/abs/2006. 04154.

        [12]Zhang Haozhe, Cai Zexin, Qin Xiaoyi, et al. SIG-VC: a speaker information guided zero-shot voice conversion system for both human beings and machines[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2022: 6567-65571.

        [13]Helander E E, Nurminen J. A novel method for prosody prediction in voice conversion[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2007: IV-509-IV-512.

        [14]Wang Disong, Deng Liqun, Yeung Y, et al. VQMIVC: vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion[EB/OL]. (2021-06-18). https://arxiv.org/abs/2106.10132.

        [15]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. Unsupervised speech decomposition via triple information bottleneck[C]//Proc of International Conference on Machine Learning. 2020: 7836-7846.

        [16]Qian Kaizhi, Zhang Yang, Chang Shiyu, et al. Global prosody style transfer without text transcriptions[C]//Proc of International Confe-rence on Machine Learning. 2021: 8650-8660.

        [17]Chan Chakho, Qian Kaizhi, Zhang Yang, et al. SpeechSplit2.0: unsupervised speech disentanglement for voice conversion without tuning autoencoder bottlenecks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2022: 6332-6336.

        [18]Yang SiCheng, Tantrawenith M, Zhuang Haolin, et al. Speech representation disentanglement with adversarial mutual information learning for one-shot voice conversion[EB/OL]. (2022-08-18).https://arxiv.org/abs/2208.08757.

        [19]Chen Liwei, Watanabe S, Rudnicky A. A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.

        [20]Karlapati S, Moinet A, Joly A, et al. Copycat: many-to-many fine-grained prosody transfer for neural text-to-speech[EB/OL]. (2020-04-30).https://arxiv.org/abs/2004.14617.

        [21]Lei Yi, Yang Shan, Zhu Xinfa, et al. Cross-speaker emotion transfer through information perturbation in emotional speech synthesis[J]. IEEE Signal Processing Letters, 2022, 29: 1948-1952.

        [22]Cheng Pengyu, Hao Weituo, Dai Shuyang, et al. Club: a contrastive log-ratio upper bound of mutual information[C]//Proc of Internatio-nal Conference on Machine Learning. 2020: 1779-1788.

        [23]Choi H S, Lee J, Kim W, et al. Neural analysis and synthesis: reconstructing speech from self-supervised representations[J]. Advances in Neural Information Processing Systems, 2021, 34: 16251-16265.

        [24]Li Jingyi, Tu Weiping, Xiao Li. FreeVC: towards high-quality text-free one-shot voice conversion[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.

        [25]Lian Zheng, Zhong Rongxiu, Wen Zhengqi, et al. Towards fine-grained prosody control for voice conversion[C]//Proc of the 12th International Symposium on Chinese Spoken Language Processing. Piscataway,NJ:IEEE Press,PejjatBluc5NPh46k670lnyP26GxNmGdekdR918gAms= 2021: 1-5.

        [26]Jadoul Y, Thompson B, De Boer B. Introducing Parselmouth: a Python interface to Praat[J]. Journal of Phonetics, 2018, 71: 1-15.

        [27]Zavalishin V. The art of VA filter design[M]. Berlin: Native Instruments, 2012.

        [28]Yamagishi J, Veaux C, MacDonald K. CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit (version 0.92)[D]. Edinburgh: University of Edinburgh, 2019: 271-350.

        [29]Van Den Oord A, Dieleman S, Zen H, et al. WaveNet: a generative model for raw audio[EB/OL]. (2016). https://arxiv.org/abs/1609. 03499.

        [30]Li Chengda, Shi Jing, Zhang Wangyou, et al. ESPnet-SE: end-to-end speech enhancement and separation toolkit designed for ASR integration[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway,NJ:IEEE Press, 2021: 785-792.

        区一区一日本高清视频在线观看| 男人进去女人爽免费视频| 成人片黄网站色大片免费观看cn| 另类专区欧美在线亚洲免费| 男女发生关系视频网站| 国产三级国产精品国产专区50| 午夜免费福利小电影| 亚洲熟伦熟女新五十路熟妇| 精精国产xxx在线视频app| 国产成人精品一区二三区在线观看| 中字乱码视频| 怡红院免费的全部视频| 亚洲熟妇网| av在线网站一区二区| 日韩少妇人妻中文字幕| 欧美一区二区三区红桃小说 | 伊人22综合| 免费女同毛片在线不卡| 日本视频一区二区三区一| 无码av天堂一区二区三区| 日韩精品区欧美在线一区| 国内偷拍视频一区二区| 熟妇高潮一区二区三区在线观看 | 亚洲乱码中文字幕视频| 亚洲精品久久一区二区三区777| 国产喷水福利在线视频| 蜜臀av中文人妻系列| 亚洲av手机在线网站| 久久人人爽人人爽人人片av东京热| 中文字幕第八页| 日本成年少妇人妻中文字幕| 强奸乱伦影音先锋| 亚洲视频一区| 亚洲AV秘 无套一区二区三区| 亚洲av产在线精品亚洲第三站| 日韩精品一区二区三区中文| 国产精品搭讪系列在线观看| 中文字幕一区二区三区在线乱码| 国产在线一区二区三区四区| 四虎国产精品免费久久| 久草热这里只有精品在线|