亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成對(duì)抗網(wǎng)絡(luò)的語音畫像方法

        2025-04-12 00:00:00秦昊銘卜凡亮鐘方昊馬啟明
        河南科技 2025年6期

        摘 要:【目的】為應(yīng)對(duì)當(dāng)前語音驅(qū)動(dòng)的人臉圖像生成方法在特征提取和生成質(zhì)量方面的挑戰(zhàn),特別是解決音頻與人臉特征之間深層聯(lián)系的探索和利用不足問題,提出了一種基于梅爾頻率倒譜系數(shù)(MFCC)的InceptionResNet-V1音頻特征提取網(wǎng)絡(luò)?!痉椒ā客ㄟ^SEGAN對(duì)音頻信號(hào)進(jìn)行數(shù)據(jù)增強(qiáng),以實(shí)現(xiàn)特征的精細(xì)提取和有效傳遞。針對(duì)人臉圖像生成質(zhì)量問題,采用基于輔助分類器的生成對(duì)抗網(wǎng)絡(luò)(AC-GAN)作為基線模型,并引入中值增強(qiáng)空間通道注意力模塊(Median-enhanced Spatial and Channel Attention Block)以提升特征提取能力。同時(shí),結(jié)合圖像超分辨率重建模塊,將生成的圖像恢復(fù)為高分辨率圖像?!窘Y(jié)果】實(shí)驗(yàn)結(jié)果表明,所提方法在語音驅(qū)動(dòng)的人臉圖像生成任務(wù)中顯著提升了生成質(zhì)量,相較于主流模型FID降低了36%,余弦相似度提高了22%,人臉檢索性能(Top-N)均有效提升,充分證明了其有效性和優(yōu)越性?!窘Y(jié)論】通過語音特征優(yōu)化和注意力增強(qiáng)機(jī)制,有效提升了語音驅(qū)動(dòng)人臉生成的精度與視覺效果,為跨模態(tài)生成任務(wù)提供了可擴(kuò)展的技術(shù)路徑。

        關(guān)鍵詞:語音生成人臉;梅爾頻率倒譜系數(shù);生成對(duì)抗網(wǎng)絡(luò);注意力機(jī)制;圖像超分辨率重建

        中圖分類號(hào):TP391 " "文獻(xiàn)標(biāo)志碼:A " " 文章編號(hào):1003-5168(2025)06-0022-09

        DOI:10.19968/j.cnki.hnkj.1003-5168.2025.06.004

        Speech Portrait Method Based on Generative Adversarial Networks

        QIN Haoming BU Fanliang ZHONG Fanghao MA Qiming

        (School of Information Network Security, People's Public Security University of China, Beijing

        100038, China)

        Abstract:[Purposes] To address the challenges faced by current speech-driven facial image generation methods, particularly the insufficient exploration and utilization of deep audio-visual feature correlations, as well as limitations in feature extraction and generation quality, this paper proposes an InceptionResNet-V1 audio feature extraction network based on Mel Frequency Cepstrum Coefficient (MFCC). [Methods] The data of the audio signal is enhanced by SEGAN to achieve fine extraction and effective transmission of features. To improve facial image generation, we adopt an Auxiliary Classifier GAN (AC-GAN) as the baseline model, integrating a Median-enhanced Spatial and Channel Attention Block (MECS) to strengthen local feature alignment. Additionally, combined with the image super-resolution reconstruction module, the generated image is restored to a high-resolution image. [Findings] The experimental results demonstrate that the proposed method significantly enhances the quality of speech-driven facial image generation. Compared to mainstream models, it achieves a 36% reduction in FID and a 22% improvement in cosine similarity. Additionally, the face retrieval performance (Top-N) is consistently enhanced, fully validating its effectiveness and superiority. [Conclusions] By optimizing audio feature representation and introducing attention-enhanced mechanisms, this work effectively improves the precision and visual realism of speech-driven facial generation, offering a scalable technical framework for cross-modal generation tasks.

        Keywords:speech-driven facial image generation; MFCC; generative adversarial network;attention mechanism; image super-resolution reconstruction

        0 引言

        語音畫像指的是從一段說話人的語音中提取說話人的身份信息[1],從而生成與說話人臉部特征相似的人臉圖像[2]。隨著互聯(lián)網(wǎng)技術(shù)的日益成熟和廣泛普及,各種新型的涉網(wǎng)犯罪迅速崛起,對(duì)人類社會(huì)的穩(wěn)定構(gòu)成了嚴(yán)峻挑戰(zhàn)。通過對(duì)音頻信息進(jìn)行分析,將生成的面部圖像與人臉數(shù)據(jù)庫進(jìn)行匹配,有利于提高案件偵查的效率,從而增強(qiáng)社會(huì)穩(wěn)定性,維持社會(huì)秩序。針對(duì)上述問題,本研究在公安領(lǐng)域以及非公安領(lǐng)域有著廣泛的應(yīng)用價(jià)值[3]。

        語音驅(qū)動(dòng)人臉圖像生成的跨模態(tài)任務(wù)最早由美國麻省理工學(xué)院的研究人員 Oh 等人[4]展開研究。該研究提出的模型為 Speech2face ,由人臉編碼器、人臉解碼器和語音編碼器組成,揭示了語音與面部結(jié)構(gòu)之間存在統(tǒng)計(jì)學(xué)上的相關(guān)性。2019年Duarte等人[5]提出了一種全新的深度神經(jīng)網(wǎng)絡(luò)模型,命名為Wav2Pix,該模型以端到端的方式從原始語音波形直接生成面部圖像,無須任何額外的身份信息,且在自建的高質(zhì)量數(shù)據(jù)集上進(jìn)行了訓(xùn)練。Wen等人通過一種無監(jiān)督的模型Voice2face來從音頻中重建人臉圖像[6],提出了一種基于GANs的新框架[7],并在GAN中加入身份分類器,以實(shí)現(xiàn)從語音中生成的人臉圖像對(duì)應(yīng)說話人的真實(shí)身份。

        針對(duì)以上研究,為了使模型能有更好的表現(xiàn),本研究提出了基于對(duì)抗生成網(wǎng)絡(luò)的語音畫像模型,并在架構(gòu)和關(guān)鍵模塊設(shè)計(jì)上引入了多項(xiàng)創(chuàng)新。該模型由語音特征提取和人臉圖像生成兩部分組成,分別針對(duì)語音增強(qiáng)、特征提取與融合以及圖像生成的精確性進(jìn)行了優(yōu)化,創(chuàng)新性地結(jié)合了以下幾項(xiàng)關(guān)鍵技術(shù)。①引入SEGAN網(wǎng)絡(luò)[8]對(duì)帶有噪聲的音頻進(jìn)行增強(qiáng)處理,生成更高質(zhì)量的語音輸入。② 利用MFCC特征提取[9]將增強(qiáng)后的語音信號(hào)轉(zhuǎn)化為頻譜圖,保留語音的時(shí)頻特征。③使用InceptionResNet-V1網(wǎng)絡(luò)[10]提取語音的深度特征,顯著提升特征表達(dá)能力。④設(shè)計(jì)了基于MECS-GAN(Median-enhanced Spatial and Channel Attention Block- Generative Adversarial Network)的生成架構(gòu),通過中值增強(qiáng)技術(shù)優(yōu)化空間和通道的注意力機(jī)制,更準(zhǔn)確地捕捉并融合語音特征,實(shí)現(xiàn)生成圖像與特征向量屬性的高一致性。實(shí)驗(yàn)結(jié)果表明,該模型在多項(xiàng)指標(biāo)上均顯著優(yōu)于Voice2Face[6]模型,特別是在生成圖像的保真度和細(xì)節(jié)表現(xiàn)上有了大幅度提升。

        1 基礎(chǔ)知識(shí)

        1.1 基于SEGAN的語音增強(qiáng)技術(shù)

        SEGAN(Speech Enhancement Generative Adversarial Network)是基于生成對(duì)抗網(wǎng)絡(luò)的語音增強(qiáng)技術(shù),其基本原理在于通過一個(gè)生成器和一個(gè)判別器的對(duì)抗訓(xùn)練,達(dá)到從含噪聲的語音中提取清晰語音信號(hào)的目的。

        在GAN的基礎(chǔ)上,SEGAN中的生成器主要負(fù)責(zé)語音增強(qiáng)。給定一個(gè)原始信號(hào)數(shù)據(jù)集 X={(x1?,x^1?),(x2?,x^2?),……,(xN?,x^N?)},[x]表示干凈語音信號(hào),x^表示含噪語音信號(hào)。含噪聲信號(hào)x^和隨機(jī)信號(hào)在SEGAN模型生成器中訓(xùn)練,經(jīng)過增強(qiáng)處理,輸出增強(qiáng)后的語音[x]。

        判別器主要用于監(jiān)督訓(xùn)練階段,不參與模型測試。其任務(wù)是鑒別輸入語音是原始語音[x]還是增強(qiáng)后的語音[x],并向生成器提供反饋,使生成器能夠輸出更接近真實(shí)語音的增強(qiáng)信號(hào)。

        為了提高語音增強(qiáng)的質(zhì)量和穩(wěn)定性,在SEGAN的生成器損失函數(shù)中加入了一個(gè)二次項(xiàng),以減少增強(qiáng)后語音與原始語音[x]之間的距離。這個(gè)距離由超參數(shù) [λ](在原始公式中硬編碼為100,但在這里作為可調(diào)的權(quán)重參數(shù))來控制。同時(shí),采用最小二乘損失來優(yōu)化判別器 (D),進(jìn)一步提高模型的性能。這里將生成器接收原始語音[x]和參考[r]作為一對(duì),將生成語音[G(xnoisy, z)]、噪聲語音x^和參考[r]作為另一對(duì)。SEGAN的整體結(jié)構(gòu)如圖1所示。

        生成器的損失函數(shù)由兩個(gè)部分組成: LSGAN損失和L1損失。具體表示見式(1)。

        [LG=12Ex~pnoisy(x),z~pz(z),r~pref(r)(D(G(x, z), x, r)-1)2+λ?Ex~pnoisy(x),z~pz(z),y~pclean(y)‖G(x, z)-y‖1] (1)

        式中:第一項(xiàng)為LSGAN損失;第二項(xiàng)為L1損失;[λ]為權(quán)重參數(shù),用于平衡損失函數(shù)中各部分的貢獻(xiàn)。

        判別器的損失函數(shù)包含兩部分,分別對(duì)應(yīng)判別器對(duì)真實(shí)樣本和生成樣本(及其相關(guān)輸入,如噪聲語音和參考信號(hào))的預(yù)測誤差。具體來說,判別器的損失函數(shù)表示見式(2)。

        [LD=12Ey~pclean(y),r~pref(r)(D(y, r)-1)2+12Ex~pnoisy(x),z~pz(z),r~pref(r)D(G(x, z), x, r)2] (2)

        1.2 中值增強(qiáng)空間通道注意力(MECS)

        本研究提出了一種中值增強(qiáng)的空間和通道注意力塊(MECS),以有效地提升特征提取的能力。MECS模塊結(jié)合了通道注意力和空間注意力機(jī)制[11],能夠在不同尺度上捕捉和融合特征。

        在計(jì)算機(jī)視覺任務(wù)中,模型的性能很大程度上依賴于其特征提取能力。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)[12]在處理圖像任務(wù)時(shí)盡管有效,可是在處理全局信息和捕捉多尺度特征時(shí)存在不足。為了應(yīng)對(duì)這些問題,本研究提出了中值增強(qiáng)的空間和通道注意力模塊(MECS),以提升特征提取的效果和模型的魯棒性。MECS模塊的整體結(jié)構(gòu)如圖2所示。

        通道注意力機(jī)制通過全局池化(全局平均池化、全局最大池化以及全局中值池化)來提取特征圖的全局統(tǒng)計(jì)信息,從而在嘈雜環(huán)境下仍能提取出高質(zhì)量的特征。具體過程如下。

        首先,模型對(duì)輸入的特征圖進(jìn)行池化操作處理。通過全局平均池化(AvgPool)、全局最大池化(MaxPool)和全局中值池化(MedianPool),得到三個(gè)不同的結(jié)果。每個(gè)池化結(jié)果的尺寸均為 [?C×1×1],其中[C]為通道數(shù)。其次,每個(gè)池化結(jié)果輸入到共享的多層感知器(MLP)中進(jìn)行處理。通過第一個(gè)卷積層之后將特征維度從[C]降到[C/r][Cr],其中[r]為降維比率,第二個(gè)卷積層將特征維度恢復(fù)到[C]。最后,使用 Sigmoid 激活函數(shù)將輸出值壓縮到 [0, 1] 范圍內(nèi),得到三個(gè)注意力圖。將三個(gè)池化結(jié)果的注意力圖逐元素相加,生成最終的通道注意力圖。隨后將通道注意力圖與原始輸入特征圖逐元素相乘,得到加權(quán)后的特征圖。該過程的計(jì)算見式(3)和式(4)。

        [Fc=σ(MLP (AvgPool(F)))+σ(MLP(MaxPool(F)))+σ(MLP(MedianPool(F)))] " " (3)

        [F=Fc⊙F] (4)

        式中:σ表示Sigmoid函數(shù);⊙表示元素級(jí)相乘。

        空間注意力機(jī)制利用多尺度深度卷積捕捉輸入特征圖的空間關(guān)系,生成空間注意力圖。具體過程如下。

        首先,輸入特征圖通過一個(gè)5 × 5 的深度卷積層,提取基礎(chǔ)特征,該卷積層的輸出尺寸與輸入相同。其次,為了獲取多尺度的特征信息,這些基礎(chǔ)特征被進(jìn)一步送入多個(gè)不同尺寸的深度卷積層中,這些卷積層涵蓋1×7、1×11、1×21多種卷積核尺寸以全面捕捉不同尺度的特征。再次,將所有深度卷積層的輸出特征圖進(jìn)行元素級(jí)的相加操作,實(shí)現(xiàn)特征的融合。最后,把融合后的特征圖通過一個(gè)1×1的卷積層處理,生成所需的空間注意力圖。隨后將空間注意力圖與經(jīng)過通道加權(quán)處理的特征圖進(jìn)行元素級(jí)的相乘操作,得到最終的輸出特征圖。該過程的計(jì)算見式(5)和式(6)。

        [Fs=i=1nDi(F)] (5)

        [F=Conv1x1(Fs)⊙F] (6)

        式中:[i]表示不同尺寸的深度卷積操作;[n] 表示深度卷積的數(shù)量;[Conv1x1]表示1×1卷積操作。

        1.3 基于輔助分類器的生成對(duì)抗網(wǎng)絡(luò)

        ACGAN(Auxiliary Classifier GAN)是GAN的進(jìn)一步擴(kuò)展[13],其創(chuàng)新點(diǎn)是在傳統(tǒng)GAN判別器D中巧妙地融入了一個(gè)輔助分類器。這一設(shè)計(jì)不僅使得判別器能夠區(qū)分輸入圖像的真實(shí)性和生成性,還肩負(fù)起預(yù)測圖像類別標(biāo)簽的重任。相應(yīng)地,生成器G也不僅需要生成在視覺上難以與真實(shí)圖像區(qū)分的樣本,還必須確保這些樣本能夠精準(zhǔn)地匹配到特定的類別標(biāo)簽。ACGAN模型結(jié)構(gòu)圖如圖3所示。

        1.4 音頻處理器

        本研究開發(fā)了一個(gè)新的音頻處理器模塊,專注于高效地處理和轉(zhuǎn)換音頻信號(hào)。首先,音頻信號(hào)被數(shù)字化處理,讀取WAV文件得到一維的NumPy數(shù)組,代表音頻信號(hào)的幅度隨時(shí)間變化。為了補(bǔ)償高頻衰減,MFCC特征提取過程從預(yù)加重開始,具體見式(7)。

        [x(n)=x(n)-0.95?x(n-1)] (7)

        預(yù)加重后的信號(hào)被分幀,每幀長度為20~40 ms,幀間重疊長度為幀長的一半。信號(hào)經(jīng)過漢明窗處理以減少泄漏,具體見式(8)。

        [w(n)=0.54-0.46cos2πnN-1] (8)

        其次,對(duì)每幀進(jìn)行快速傅里葉變換(FFT),計(jì)算Mel濾波器組的響應(yīng)。Mel尺度的頻率轉(zhuǎn)換見式(9)。

        [mel(f)=2 595log101+f700] (9)

        每個(gè)濾波器的輸出取對(duì)數(shù),得到的對(duì)數(shù)能量見式(10)。

        [Em=logk=1N|Xk|2Hm(k)] (10)

        這一步驟后,得到的對(duì)數(shù)能量可以通過Mel濾波器組的響應(yīng),形成Mel頻譜圖。這個(gè)Mel頻譜圖表示了信號(hào)在不同頻率上的能量分布,是一個(gè)二維矩陣,常作為后續(xù)模型的輸入。

        在本研究的語音驅(qū)動(dòng)人臉畫像模型基本架構(gòu)中,先從訓(xùn)練集的音頻信號(hào)中獲取其對(duì)數(shù)梅爾譜圖,再將它們表示為64維的特征向量,對(duì)每個(gè)Mel頻段執(zhí)行均值和方差歸一化處理,將語音片段剪輯在8 s左右,并將處理好的語音輸入到語音編碼器網(wǎng)絡(luò)中進(jìn)行特征提取。

        本研究選擇使用InceptionResNet-V1作為語音編碼器網(wǎng)絡(luò)。InceptionResNet-V1 是一種結(jié)合了 Inception 模塊[14]和 ResNet 殘差連接[15]的卷積神經(jīng)網(wǎng)絡(luò)。其設(shè)計(jì)目標(biāo)是通過 Inception 模塊的多尺度特征提取能力和 ResNet 的梯度傳遞優(yōu)勢來提高模型的性能和效率。該模型的架構(gòu)包括初始的 Stem 部分用于初步特征提取,以減少特征圖的尺寸并提取低層次特征。接著通過 Inception-ResNet-A 模塊和Inception-ResNet-B 模塊提取不同尺度的特征,并利用殘差連接將輸入和輸出連接起來,以緩解梯度消失問題。然后依次通過Reduction-A 模塊、Reduction-B 模塊和 Inception-ResNet-C 模塊進(jìn)行多層次特征提取和降維處理,并通過全局平均池化和全連接層輸出分類結(jié)果。InceptionResNet-V1 通過將 Inception 模塊與 ResNet 的殘差連接相結(jié)合,既保持了 Inception 模塊的多尺度特征提取能力,又利用了 ResNet 的梯度傳播優(yōu)勢,從而在復(fù)雜圖像生成任務(wù)中取得了優(yōu)異的性能。

        通過這些步驟,最終得到一個(gè)高效的音頻處理模塊,實(shí)現(xiàn)了特征的精細(xì)提取和有效傳遞。輸入維度為一維的NumPy數(shù)組,通過MFCC轉(zhuǎn)換為對(duì)數(shù)Mel頻譜圖后,輸入到InceptionResNet-V1網(wǎng)絡(luò)中進(jìn)行特征提取,最終輸出特征向量。隨后生成器將處理后的數(shù)據(jù)同時(shí)輸入到判別器和分類器中。判別器將區(qū)分?jǐn)?shù)據(jù)是來自真實(shí)樣本還是由生成器生成的,而分類器則負(fù)責(zé)對(duì)輸入數(shù)據(jù)進(jìn)行分類,識(shí)別出其所屬的類別。

        2 基于語音特征的人臉圖像生成方法

        2.1 模型的整體結(jié)構(gòu)

        本研究提出的基于語音特征的人臉圖像生成模型包含兩個(gè)部分,分別是基于InceptionResNet-V1的語音特征提取部分和基于MECS-GAN的人臉生成部分,整體結(jié)構(gòu)如圖4所示。

        2.2 損失函數(shù)

        在整體網(wǎng)絡(luò)模型中,ACGAN的生成器G的輸入是隨機(jī)噪音 [z] 和類別標(biāo)簽 [c],輸出為生成樣本 [x=G(z,c)]。判別器D的輸入為生成樣本 [x] 和真實(shí)樣本 [x], 判別器D需要同時(shí)輸出樣本的真實(shí)性概率 [P(real|x)] 和類別概率 [P(c|x)]。ACGAN的目標(biāo)函數(shù)涵蓋了兩個(gè)關(guān)鍵部分:一是GAN傳統(tǒng)的對(duì)抗損失,其關(guān)注于生成器與判別器之間的真?zhèn)尾┺模欢禽o助分類損失,其側(cè)重于提升判別器對(duì)樣本類別的準(zhǔn)確預(yù)測能力。生成器的表示見式(11)。

        [LG=E[log(1-P(real|x))]-λE[logP(c|x)]] " " " "(11)

        [λ]是一個(gè)超參數(shù),用于平衡對(duì)抗性損失和分類損失。在對(duì)抗性損失部分,使用了 [(1-P(real|x))]來表示生成器,希望能成功“迷惑”判別器。判別器的表示見式(12)。

        [LD=-E[logP(real|x)]-E[log(1-P(real|x))]-λ(E[logP(c|x)]+E[logP(c|x)])] (12)

        對(duì)抗性損失部分使用了交叉熵?fù)p失來訓(xùn)練判別器正確區(qū)分真實(shí)和生成樣本。

        輔助分類損失:

        對(duì)于判別器見式(13)。

        [?CD=-Ex,c[logP(c|x)]] (13)

        對(duì)于生成器見式(14)。

        [?CG=-Ez,c[logP(c|G(z,c))]] (14)

        2.3 圖像超分辨率重建模塊

        圖像超分辨率重建模塊的目標(biāo)是將模型生成的圖像恢復(fù)至相應(yīng)的高分辨率版本。為實(shí)現(xiàn)這一目標(biāo),在前文提出的模型基礎(chǔ)上,進(jìn)一步添加了降解去除模塊以及一個(gè)預(yù)訓(xùn)練的人臉GAN。通過微調(diào)預(yù)訓(xùn)練的StyleGAN2模型[16],評(píng)估已生成的圖像,對(duì)生成模塊生成的圖像進(jìn)行人臉修復(fù),從而進(jìn)一步提升生成人臉圖像質(zhì)量,還原出更可信的細(xì)節(jié)。通過借鑒GFPGAN等研究者的思路[17],引入兩個(gè)關(guān)鍵組件:降解去除模塊和預(yù)訓(xùn)練的人臉GAN作為面部先驗(yàn)。降解去除模塊:這個(gè)模塊類似于U-Net[18],負(fù)責(zé)處理初始低質(zhì)量的人臉圖像。通過去除降解物(如噪聲、模糊等)來改善圖像質(zhì)量,同時(shí)保留面部信息。預(yù)訓(xùn)練的人臉GAN作為面部先驗(yàn):模型使用了預(yù)先訓(xùn)練的人臉生成對(duì)抗網(wǎng)絡(luò)(StyleGAN2)作為先驗(yàn)信息,這個(gè)GAN已經(jīng)學(xué)會(huì)了生成高質(zhì)量的面部圖像,將其作為先驗(yàn),幫助生成器進(jìn)一步優(yōu)化生成的高分辨率圖像。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境搭建

        本研究提出的方法所使用的實(shí)驗(yàn)平臺(tái)與環(huán)境配置見表1。網(wǎng)絡(luò)模型訓(xùn)練參數(shù)設(shè)置中,學(xué)習(xí)率為0.05,訓(xùn)練輪數(shù)為50 000。

        3.2 數(shù)據(jù)集介紹

        在實(shí)驗(yàn)設(shè)置中,本研究采用了兩個(gè)具有身份標(biāo)識(shí)信息的數(shù)據(jù)集:Voxceleb1的語音記錄[19]和VGGFace的手動(dòng)過濾版人臉圖像[20]。經(jīng)過篩選,得到了1 225名相同身份的受試者數(shù)據(jù),包含149 354條語音記錄和139 572張正面人臉圖像。VGGFace數(shù)據(jù)集是由牛津大學(xué)視覺組在2015年構(gòu)建的大規(guī)模人臉識(shí)別數(shù)據(jù)集,包含 2 622個(gè)名人和公眾人物的260萬張自然環(huán)境下拍攝的人臉圖像。同時(shí),本研究選用的Voxceleb1數(shù)據(jù)集是聲紋識(shí)別任務(wù)中最常用的數(shù)據(jù)集之一,其音頻數(shù)據(jù)均來源于YouTube上的真實(shí)場景視頻。該數(shù)據(jù)集包含了各個(gè)國家、性別、職業(yè)、年齡以及不同口音的說話人。根據(jù)Wen等人的劃分方式[6],將數(shù)據(jù)集按照說話人名字首字母劃分為訓(xùn)練集、驗(yàn)證集和測試集。實(shí)驗(yàn)過程中具體的數(shù)據(jù)劃分細(xì)節(jié)見表2。

        對(duì)于音頻和人臉圖像的處理,本研究采用了不同的預(yù)處理流程。針對(duì)音頻數(shù)據(jù)的處理,首先,利用語音活動(dòng)檢測器來精確鎖定錄音中的語音部分,確保僅對(duì)這些關(guān)鍵語音段進(jìn)行處理。其次,將這些語音數(shù)據(jù)轉(zhuǎn)換為單通道16位流,并保持16 kHz的采樣率,以實(shí)現(xiàn)數(shù)據(jù)的一致性。再次,音頻被送入SEGAN網(wǎng)絡(luò)進(jìn)行音頻質(zhì)量的增強(qiáng)處理,以進(jìn)一步提升音頻的清晰度和可辨識(shí)度。最后,將音頻輸入采用25 ms的分析窗口,并以10 ms的步長提取512 × 300大小的對(duì)數(shù)MEL譜圖。為確保數(shù)據(jù)的穩(wěn)定性,對(duì)每個(gè)MEL頻段進(jìn)行了均值和方差的歸一化處理。在訓(xùn)練階段,隨機(jī)選擇3~8 s的音頻片段進(jìn)行訓(xùn)練,而測試時(shí)則使用完整的錄音。對(duì)于人臉圖像,檢測并標(biāo)記了所有人臉的關(guān)鍵點(diǎn)。通過相似變換,得到了大小為3×64×64的RGB人臉圖像。為確保數(shù)據(jù)的一致性,對(duì)RGB圖像中的每個(gè)像素除以127.5再減去1并進(jìn)行歸一化處理,將像素值控制在[-1,1]范圍內(nèi)。

        3.3 實(shí)驗(yàn)結(jié)果的量化分析

        為了驗(yàn)證本研究方法的有效性,采用以下3種測試指標(biāo)來進(jìn)行定量分析。

        3.3.1 弗雷歇起始距離(FID)。在本研究中,F(xiàn)ID(Fréchet Inception Distance )[21]被用作量化語音驅(qū)動(dòng)人臉生成系統(tǒng)性能的指標(biāo)。FID指標(biāo)利用Inception網(wǎng)絡(luò)提取的特征向量來量化真實(shí)樣本集與生成樣本集之間的統(tǒng)計(jì)差異。具體而言,F(xiàn)ID計(jì)算了兩個(gè)特征分布——即真實(shí)樣本分布與生成樣本分布的Fréchet距離,具體見式(15)。

        [FID(x,g)=μx-μg2+TrΣx+Σg-2ΣxΣg12] " " " " (15)

        式中:[μx] 和 [μg] 分別代表真實(shí)樣本和生成樣本特征的均值向量;[Σx] 和 [Σg] 分別代表對(duì)應(yīng)的協(xié)方差矩陣。理論上,若生成樣本與真實(shí)樣本無差異,則FID值為零。因此,較低的FID值表示生成樣本與真實(shí)樣本在統(tǒng)計(jì)特征上的高度相似性。

        3.3.2 人臉檢索性能(Top-N)。在語音畫像研究中,人臉檢索性能是評(píng)估生成的人臉圖像質(zhì)量的重要指標(biāo)。該指標(biāo)最早由Oh等人[4]提出,用于衡量通過語音生成的人臉圖像在檢索庫中找到真實(shí)說話人圖像的概率。具體來說,Top-N準(zhǔn)確率表示在所有檢索實(shí)驗(yàn)中,返回的前N張相似度最高的圖像中,至少有一張是與真實(shí)說話人匹配的頻率。具體見式(16)至式(18)。

        [‖x-y‖1=i=1n|xi-yi|] (16)

        [‖x-y‖2=i=1n(xi-yi)2] (17)

        [d(x,y)=1-i=1nxiyii=1nx2ii=1ny2i] (18)

        式中:[x]和[y]是n維向量;[xi]和[yi]分別是這兩個(gè)向量在第i個(gè)維度上的值。

        3.3.3 余弦相似度。在語音畫像研究中,余弦相似度是用于評(píng)估生成的人臉圖像與真實(shí)人臉圖像之間相似性的重要指標(biāo)。本研究實(shí)驗(yàn)中通過對(duì)人臉的結(jié)構(gòu)五官識(shí)別,來進(jìn)行余弦相似度的計(jì)算。余弦相似度的計(jì)算見式(19)。

        [cos(x,y)=i=1nxiyii=1nx2ii=1ny2i] (19)

        3.4 對(duì)比試驗(yàn)

        為驗(yàn)證本研究提出的模型在生成任務(wù)中的性能,將模型在 Voxceleb1 和 VGGFace 交集的訓(xùn)練集中進(jìn)行訓(xùn)練,在交集的測試集上進(jìn)行評(píng)估。其中包含 189 個(gè)說話人的語音數(shù)據(jù)和人臉圖像數(shù)據(jù),用于計(jì)算 FID、人臉檢索性能 Top-N和余弦值等數(shù)值。本研究模型MedIncept-MelGAN和主流模型實(shí)驗(yàn)結(jié)果對(duì)比見表3。

        從表3中可以看出,本研究提出的語音驅(qū)動(dòng)人臉圖像生成模型MedIncept-MelGAN在各個(gè)評(píng)估指標(biāo)下和另外三個(gè)主流模型相比均表現(xiàn)出顯著優(yōu)勢。從人臉圖像檢索性能Top-N的評(píng)估、FID評(píng)價(jià)指標(biāo)以及余弦相似度來看,本研究提出的模型較各大模型均有顯著提升。這表明本研究提出的模型生成的人臉圖像在數(shù)據(jù)分布上與真實(shí)人臉圖像更加接近,且生成質(zhì)量顯著提高。

        本研究方法與主流模型實(shí)驗(yàn)方法生成的圖像對(duì)比如圖5所示。從圖5中可觀察出,本研究提出的模型所生成的圖像在細(xì)節(jié)上所表現(xiàn)的人臉五官更為真實(shí)立體,并沒有出現(xiàn)扭曲以及與背景色塊融合等情況,在真實(shí)度上更接近于真實(shí)樣本,圖像清晰度均高于各個(gè)模型所生成的圖像。

        3.5 消融實(shí)驗(yàn)

        本研究進(jìn)行了多組消融實(shí)驗(yàn),以評(píng)估不同模塊對(duì)語音人臉生成模型性能的影響,實(shí)驗(yàn)結(jié)果見表4。本研究提出的模型MedIncept-MelGAN在各個(gè)評(píng)估指標(biāo)上均優(yōu)于基線模型,驗(yàn)證了本研究方法的有效性和正確性。

        不同模型的生成結(jié)果和真實(shí)樣本如圖6所示。根據(jù)圖6可以看出,本研究提出來的模型MedIncept-MelGAN在相似度、真實(shí)性以及圖像清晰度上均達(dá)到了最佳狀態(tài)。同時(shí)在消融實(shí)驗(yàn)中使用單獨(dú)添加的模塊進(jìn)行實(shí)驗(yàn),所生成的圖像的面部結(jié)構(gòu)等方面也在基線模型的基礎(chǔ)上有一定提升。在人臉面部結(jié)構(gòu)、性別、表情等方面,本研究提出的模型基本能保持對(duì)真實(shí)樣本的還原,也說明了各模塊的可行性。

        綜合以上實(shí)驗(yàn)結(jié)果可以看出,本研究提出的綜合模型MedIncept-MelGAN在各個(gè)指標(biāo)上均表現(xiàn)出最優(yōu)性能。通過引入音頻處理器和MECS等模塊,不僅提高了生成圖像的質(zhì)量,還增強(qiáng)了生成圖像與真實(shí)人臉圖像之間的相似度。相較于基線模型在FID降低了36%,余弦相似度提高了22%,人臉檢索性能(Top-N)均有效提升。這也表明了本研究模型能在音頻和人臉的特征上建立聯(lián)系,證明了本研究方法的有效性和創(chuàng)新性。

        4 結(jié)語

        本研究針對(duì)語音驅(qū)動(dòng)人臉圖像生成的特征提取與生成質(zhì)量等問題,提出了基于語音特征的人臉圖像生成模型MedIncept-MelGAN。通過建立音頻特征提取模塊以及基于MECS-GAN的人臉生成模塊,提高了模型的整體性能和效率,并緩解實(shí)驗(yàn)中梯度消失的問題。同時(shí),為了使圖像在視覺上具有更佳的表現(xiàn),通過圖像超分辨率重建模塊將生成的圖像恢復(fù)至相應(yīng)的高分辨率版本,進(jìn)一步提高了模型的整體生成效果。在Voxceleb1和VGGFace數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本研究模型在FID、Top-N 指標(biāo)以及余弦相似度等指標(biāo)上的表現(xiàn)均優(yōu)于主流實(shí)驗(yàn)?zāi)P停尚Ч忻黠@提升。

        參考文獻(xiàn):

        [1] LEWICKI, MICHAEL S.Efficient coding of natural sounds.[J].Nature Neuroscience, 2002, 5(4):356-363.

        [2] OWENS A , EFROS A A .Audio-visual scene analysis with self-supervised multisensory features[C]//2018.

        [3]王媛媛.基于語音的人臉畫像方法[D].北京:中國人民公安大學(xué),2022.

        [4]Oh T H,DEKEL T,KIM C,et al.Speech2Face: learning the face behind a voice[J].IEEE, 2019.

        [5]DUARTE A,ROLDAN F,TUBAU M,et al.Wav2Pix:speech-conditioned face generation using generative adversarial networks[J].IEEE, 2019.

        [6]WEN Y,SINGH R, RAJ B.Face reconstruction from voice using generative adversarial networks[C]//Advances in Neural Information Processing Systems 32, Volume 7 of 20: 32nd Conference on Neural Information Processing Systems (NeurIPS 2019).Vancouver(CA).8-14 December 2019.2020.

        [7] GOODFELLOW I J , SHLENS J , SZEGEDY C .Explaining and harnessing adversarial examples[J].Computer Science, 2014.

        [8]PASCUAL S , BONAFONTE A ,SERRà, et al.SEGAN:speech enhancement generative adversarial Network[J].Arxiv, 2017.

        [9]DAVIS S B .Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. Morgan Kaufmann Publishers Inc, 1990:65-74.

        [10]SZEGEDY C , IOFFE S , VANHOUCKE V ,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning[J/OL].2016[2025-02-08].https://dl.acm.org/doi/10.5555/3298023.3298188.

        [11] WOO S , PARK J , LEE J Y ,et al. CBAM: Convolutional block "attention module[J].Springer, Cham, 2018.

        [12] LECUN Y , BOTTOU L .Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998, 86(11):2278-2324.

        [13] ODENA A , OLAH C , SHLENS J .Conditional image synthesis with auxiliary classifier GANs[J].CoRR , 2016.

        [14]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets[J].MIT Press,2014.

        [15] HE K , ZHANG X , REN S ,et al. Deep residual learning for image recognition[J].IEEE, 2016.

        [16] KARRAS T , LAINE S , AITTALA M ,et al. Analyzing and improving the image quality of styleGAN[J]. Arxiv, 2019.

        [17] WANG X , LI Y , ZHANG H ,et al. Towards real-world blind face restoration with generative facial prior[J]. IEEE,2021.

        [18] RONNEBERGER O , FISCHER P , BROX T .U-Net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer International Publishing, 2015.

        [19] NAGRANI A , CHUNG J S , ZISSERMAN A .VoxCeleb: a large-scale speaker identification dataset[J]. Arxiv, 2017.

        [20] QAWAQNEH Z , MALLOUH A A , BARKANA B D .Deep convolutional neural network for age estimation based on VGG-Face model[J]. Arxiv, 2017.

        [21] HEUSEL M , RAMSAUER H , UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[J]. Arxiv, 2017.

        丝袜美腿丝袜美腿丝袜美腿丝袜| 九九99久久精品国产| 日本不卡一区二区三区在线视频| 中文字幕漂亮人妻在线| 亚洲精品一区二区国产精华液 | 伊人狼人激情综合影院| 黄色三级视频中文字幕| 国产精品成人无码a 无码| 亚洲色www无码| 青草青草伊人精品视频| 日韩精品极品视频在线观看蜜桃| 日韩精品视频av在线观看| 二区免费在线视频观看| 亚洲av成人无码一二三在线观看| 欧美放荡的少妇| 99久久精品日本一区二区免费| 亚洲精品毛片一区二区三区| 911香蕉视频| 狠狠亚洲婷婷综合久久久| 亚洲发给我的在线视频| 女人天堂av人禽交在线观看| 日韩精品极品免费视频观看 | 在线看亚洲十八禁网站| 久久中文字幕久久久久| 午夜久久精品国产亚洲av| 加勒比亚洲视频在线播放| 青青青视频手机在线观看| 人妻精品久久一区二区三区| 中文字幕无码成人片| 人人爽久久久噜人人看| 亚洲一区二区三区播放| 激情97综合亚洲色婷婷五| 亚洲福利天堂网福利在线观看| 日韩av中文字幕亚洲天| 亚洲av第一区综合激情久久久| 精品黄色国产一区二区| 中文字幕综合一区二区三区| 神马影院午夜dy888| 国产特级毛片aaaaaa| 天天影视性色香欲综合网| 久久免费视频国产|