蘭朝鳳 蔣朋威 陳 歡 趙世龍 郭小霞 韓玉蘭 韓 闖*
①(哈爾濱理工大學(xué)測控技術(shù)與通信工程學(xué)院 哈爾濱 150080)
②(哈爾濱工大衛(wèi)星技術(shù)有限公司 哈爾濱 150023)
③(中國艦船研究設(shè)計(jì)中心 武漢 430064)
語音作為一種信息交流和表達(dá)情感最方便和準(zhǔn)確的方式而存在,為人類社會發(fā)展起到了重要推進(jìn)作用。語音處理技術(shù)的發(fā)展,促進(jìn)了語音人機(jī)交互技術(shù)的進(jìn)步,進(jìn)而提升了人類與智能終端進(jìn)行交互的能力[1]。語音處理包括語音分離、語音增強(qiáng)、語音識別、自然語言理解等方面[2],其中語言分離是語音技術(shù)的前端處理,語音分離的結(jié)果影響后續(xù)交互鏈路的質(zhì)量,因此語音分離問題受到越來越多的學(xué)者關(guān)注。
語音分離來源于“雞尾酒會問題”,在復(fù)雜的噪聲環(huán)境下,人們可以聽到感興趣的聲音[3]。傳統(tǒng)的語音分離技術(shù)主要是基于信號處理和統(tǒng)計(jì)學(xué)方法,常見的單通道語音分離方法有獨(dú)立成分分析(Independent Component Analysis, ICA)[4]、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)[5]和計(jì)算聽覺場景分析(Computational Auditory Scene Analysis, CASA)[6]。傳統(tǒng)的語音分離方法存在算法優(yōu)化困難、訓(xùn)練時(shí)間長的缺點(diǎn),同時(shí)傳統(tǒng)語音分離方法需要語音的先驗(yàn)信息,限制了分離性能的進(jìn)一步提高。隨著深度學(xué)習(xí)的快速發(fā)展,通過數(shù)據(jù)去挖掘深度信息,促進(jìn)了語音分離領(lǐng)域的技術(shù)更新,例如深度聚類(DeeP CLustering, DPCL)[7]、置換不變訓(xùn)練(Permutation Invariant Training,PIT)[8]、話語級的置換不變訓(xùn)練方法(utterancelevel Permutation Invariant Training, uPIT)[9],基于深度學(xué)習(xí)的純語音分離輸入信息只含有音頻信息,面對更加復(fù)雜的現(xiàn)實(shí)場景,干擾信息增加,分離性能易受到影響。
在擁擠的餐廳和嘈雜的酒吧,人類可以只關(guān)注自己感興趣的聲音,忽略掉外部干擾,這種復(fù)雜場景下的語音感知能力不僅依賴人類聽覺系統(tǒng),還得益于視覺系統(tǒng),共同促進(jìn)人類的多感官感知系統(tǒng)處理復(fù)雜環(huán)境[10,11]。心理學(xué)研究表明,說話人的面部表情或者嘴唇運(yùn)動(dòng)會影響人腦對聲音的處理,視覺信息在對話和交流中起著重要作用,因此觀察說話人嘴唇運(yùn)動(dòng)可以幫助人們在嘈雜的環(huán)境中理解說話人的意思。受此啟發(fā),基于視聽融合的多模態(tài)主動(dòng)說話者檢測[12]、視聽語音分離[13]、視聽同步[14]等研究被相繼提出,至此音視頻融合的語音分離方法成為新的研究熱點(diǎn)[15]。
針對多說話者語音分離,由于說話者的數(shù)量較多,圖像信息運(yùn)算量大、模型復(fù)雜度高、易出現(xiàn)過擬合或欠擬合現(xiàn)象,同時(shí)在音視頻語音分離過程中,視覺信息僅起輔助作用,因此多說話者語音分離研究的重點(diǎn)依然為音頻信號。如果音頻信號能得到最大程度的利用,則分離效果將會有很大幅度的提升,因此端到端的語音分離方法被相繼提出。端到端的語音分離方法輸入與輸出都是時(shí)域語音信號,不需要進(jìn)行短時(shí)傅里葉變換(Short Time Fourier Transform, STFT)將時(shí)域信號轉(zhuǎn)換至頻域,因此可以利用音頻信號的相位信息,提高語音分離效果。端到端的語音分離方法,最早適用于純語音分離,Luo等人[16]相繼提出時(shí)域分離網(wǎng)絡(luò)(Time-domain audio separation Network, TasNet)、卷積時(shí)域分離網(wǎng)絡(luò)(Convolutional Time-domain audio separation Network, Conv-TasNet)[17]和雙路徑遞歸神經(jīng)網(wǎng)絡(luò)(Dual-Path Recurrent Neural Network,DPRNN)[18],隨著多模態(tài)音視頻語音分離技術(shù)的發(fā)展,研究學(xué)者結(jié)合端到端方法和音視頻語音分離方法,實(shí)現(xiàn)了端到端的時(shí)域音視頻語音分離。
Wu等人[19]提出了時(shí)域音視頻語音分離模型,對于音頻部分采用Conv-TasNet網(wǎng)絡(luò)結(jié)構(gòu),利用編碼器獲得音頻特征,對于視頻部分采用殘差網(wǎng)絡(luò)(Residual neural Network, ResNet)提取視覺特征,采用CNN提取視覺特征中唇部圖像,由于唇部圖像含有與音頻無關(guān)的視覺信息,導(dǎo)致運(yùn)算量稍大。范存航等人[20]利用混合語音與網(wǎng)絡(luò)輸出信號的差值,實(shí)現(xiàn)了多路語音的解算。徐亮等人[21]提出了多特征融合音視頻的語音分離模型,視覺部分采用多次特征提取的方法,獲得更多包含語音信息的視覺特征,音視頻融合部分采用了多次融合的方法,該模型分離網(wǎng)絡(luò)采用TCN網(wǎng)絡(luò),面對超長語音序列時(shí),受卷積感受野的限制。Gao等人[22]提出了多任務(wù)建模策略,該策略利用膨脹卷積網(wǎng)絡(luò)(Inflated 3D convnet, I3D)模型獲取唇部運(yùn)動(dòng)光流信息,通過學(xué)習(xí)跨模態(tài)的嵌入來建立人臉和聲音的匹配,通過人臉和聲音的相互關(guān)聯(lián),有效解決了視聽不一致問題。Xiong等人[23]將多任務(wù)建?;A(chǔ)應(yīng)用于視聽融合,利用輕量級網(wǎng)絡(luò)ShuffleNet v2提取唇部特征,同時(shí)基于自注意力機(jī)制,提出了基于跨模態(tài)注意力的聯(lián)合特征表示的視聽語音分離,提高了視覺信息利用率。Zhang等人[24]提出了對抗性糾纏視覺表征的音視頻語音分離網(wǎng)絡(luò),該網(wǎng)絡(luò)采用對抗性糾纏的方法從視覺輸入中提取與語音相關(guān)的視覺特征,并將其用于輔助語音分離,該方法雖有效地減少了圖像數(shù)據(jù)的輸入,但在視聽融合部分,是在卷積層進(jìn)行的特征拼接,未能充分利用到視覺特征。Wu等人[25]又提出了低質(zhì)量時(shí)域音視頻語音分離模型,針對低質(zhì)量的視頻,利用注意力機(jī)制選擇與音頻特征相關(guān)的視覺特征,并基于Conv-TasNet模型與多模態(tài)融合相結(jié)合,當(dāng)使用低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),得到了較好的分離結(jié)果。
上述時(shí)域視聽語音分離,雖取了不錯(cuò)的語音分離性能,但在視聽特征融合或者分離網(wǎng)絡(luò)上,存在視聽融合簡單或面對長語音序列無法進(jìn)行完整的序列提取的問題。因此針對上述問題,本文采用注意力機(jī)制的跨模態(tài)融合策略,解決音視頻融合單一問題,同時(shí)嘗試使用DPRNN作為模型的分離網(wǎng)絡(luò),使得模型面對超長語音序列可以進(jìn)行建模和優(yōu)化,力求解決多說話者的語音分離問題。
人機(jī)語音交互中,常常會遇到視頻中出現(xiàn)多個(gè)說話者圖像的情況,為分離每位說話者,需對多說話者進(jìn)行語音分離。端到端的語音分離網(wǎng)絡(luò)模型,可以更好地利用音頻信號的相位信息,提取更為準(zhǔn)確的音頻特征。因此,本文基于純語音分離Conv-TasNet網(wǎng)絡(luò)架構(gòu),構(gòu)建語音分離模型。Conv-Tas-Net網(wǎng)絡(luò)主要由編碼器、時(shí)間卷積分離網(wǎng)絡(luò)和解碼器組成,如圖1所示。
圖1 Conv-TasNet語音分離結(jié)構(gòu)框架
圖1中,Conv-TasNet利用編碼器代替了STFT獲得音頻特征,由于編碼器輸入直接為混合語音波形,不需要進(jìn)行時(shí)頻轉(zhuǎn)換,因此可以利用到音頻信號的相位信息。時(shí)間卷積分離網(wǎng)絡(luò)是通過編碼器輸出的音頻特征,計(jì)算各個(gè)說話者的掩蔽,時(shí)間卷積分離網(wǎng)絡(luò)輸出的掩蔽與編碼器輸出的音頻特征相乘,再通過解碼器得到分離后的語音,解碼器的作用類似于ISTFT。
本文對Conv-TasNet網(wǎng)絡(luò)進(jìn)行了改進(jìn),增加視覺編碼器,結(jié)合基于注意力機(jī)制的跨模態(tài)融合方法和DPRNN分離網(wǎng)絡(luò),提出多頭注意力機(jī)制時(shí)域視聽語音分離(Multi-Head Attention Time Domain AudioVisual Speech Separation, MHATD-AVSS)模型,MHATD-AVSS模型結(jié)構(gòu)如圖2所示。
圖2 基于多頭注意力機(jī)制時(shí)域視聽跨模態(tài)融合語音分離模型
圖2的語音分離模型主要由4部分組成:分別是視覺編碼器、音頻編碼器/解碼器、多說話者跨模態(tài)融合模塊和分離網(wǎng)絡(luò)。視覺編碼器由唇部嵌入提取器和時(shí)間卷積塊組成,其中唇部嵌入提取器由3D卷積層和18層的殘差網(wǎng)絡(luò)組成,時(shí)間卷積塊由1個(gè)時(shí)間卷積、ReLU激活函數(shù)和BN組成。視覺編碼器通過唇部嵌入提取器和時(shí)間卷積塊,生成維度為kv的唇部特征向量fv, v表示唇部圖像。音頻編碼器由1維卷積組成,利用1維卷積代替STFT,生成維度為ka的音頻特征向量fa, a表示輸入音頻。
為了充分考慮各個(gè)模態(tài)之間的相關(guān)性,實(shí)現(xiàn)不同模態(tài)之間的聯(lián)合表示,本文提出基于注意力機(jī)制的跨模態(tài)融合模塊,多說話者跨模態(tài)融合模塊首先對視覺編碼器輸出的不同說話者的視覺特征進(jìn)行拼接,然后將拼接后的視覺特征與音頻特征進(jìn)行跨模態(tài)融合,最后輸出維度為kav的視聽特征fav, av表示音頻和視覺融合。
分離網(wǎng)絡(luò)采用DPRNN網(wǎng)絡(luò),DPRNN在深層模型中對RNN網(wǎng)絡(luò)進(jìn)行優(yōu)化,使其面對長序列時(shí)也可以高效處理。DPRNN分離網(wǎng)絡(luò)首先將輸入的視聽特征fav進(jìn)行分割,得到分割后的視聽融合塊,然后將視聽融合塊輸入到BiLSTM網(wǎng)絡(luò)進(jìn)行塊間處理,再對處理后的視聽融合模塊進(jìn)行疊加還原,輸出各個(gè)說話者的預(yù)測掩碼Mi,i=1,2,...,n,n為說話者的個(gè)數(shù),預(yù)測掩碼Mi的維度與音頻特征向量fa維度相同,最后將復(fù)合掩碼Mi與音頻編碼器的輸出fa相乘,輸入到解碼器,通過解碼器還原出預(yù)測的說話者音頻。
2.2.1 視覺編碼器
由于唇部圖像包含語音信息和上下文信息,因此本文設(shè)計(jì)視覺編碼器提取視覺特征作為說話者的唇部視覺特征,其內(nèi)部結(jié)構(gòu)如圖3所示。
圖3 視覺編碼器結(jié)構(gòu)
在圖3中,視覺編碼器由唇部嵌入提取器和時(shí)間卷積塊組成,唇部嵌入提取器由3D卷積層和18層ResNet組成,采用CNN可以從輸入的混合視覺信息中,更好地提取到唇部特征。同時(shí),為避免隨網(wǎng)絡(luò)層數(shù)的增加而出現(xiàn)網(wǎng)絡(luò)退化問題,增加了ResNet網(wǎng)絡(luò)。ResNet由17層卷積層和1個(gè)全連接層組成,網(wǎng)絡(luò)的輸入為視頻幀,輸出為256維特征向量lv,lv表示唇部圖像。
本文的時(shí)間卷積塊由1個(gè)時(shí)間卷積、BN, ReLU激活函數(shù)和下采樣組成,輸入的256維特征向量lv,經(jīng)過ReLU激活函數(shù)和BN處理,抑制梯度爆炸和梯度消失問題,下采樣對特征向量lv進(jìn)行降維處理,時(shí)間卷積的卷積核大小為3,通道數(shù)為512,步幅大小為1。輸入的視頻圖像經(jīng)視覺編碼器處理后的唇部特征向量為
其中, Conv1D(·) 表示卷積操作, v表示唇部圖像,Lv表示卷積核大小,Sv表示卷積步長,F(xiàn)(·)表示ReLU函數(shù)。
2.2.2 音頻編碼器/解碼器
由于使用STFT方式進(jìn)行音頻特征提取,沒有考慮相位信息,且時(shí)頻域信息與視覺信息相關(guān)性較小,由此本文設(shè)計(jì)了音頻編碼器,從輸入混合語音信號中提取音頻特征,音頻編碼器采用1維卷積直接對混合語音進(jìn)行音頻特征提取。首先是音頻編碼器對輸入的混合語音先進(jìn)行1維卷積運(yùn)算,卷積核大小為40,步長為20,然后再將混合語音an轉(zhuǎn)換成 ka維表示的W ∈R1×ka。此時(shí),用矩陣乘法表示可寫為
其中,W表示卷積計(jì)算結(jié)果,U表示編碼器基函數(shù),F(xiàn)(·)表示ReLU函數(shù)。
在進(jìn)行1維卷積后,增加了整流線性單元ReLU函數(shù),從而保證了卷積后矩陣W ∈R1×ka非負(fù)性。輸入的混合語音經(jīng)音頻編碼器,可得
其中, Conv1D(·) 表示卷積操作,an表示輸入混合音頻,La表示卷積核大小,Sa表示卷積步長。
解碼器使用1維轉(zhuǎn)置卷積運(yùn)算,從W ∈R1×ka表示形式重建出波形,用矩陣乘法表示為
2.2.3 多說話者跨模態(tài)融合模塊
為充分考慮各個(gè)模態(tài)之間相關(guān)性,實(shí)現(xiàn)不同模態(tài)之間的聯(lián)合表示,本文在Xiong等人[23]跨模態(tài)融合策略的基礎(chǔ)上,采用多頭注意力機(jī)制,提出基于注意力機(jī)制的跨模態(tài)融合模塊。注意力機(jī)制可以獲取局部和全局的關(guān)系,同時(shí)參數(shù)少、模型復(fù)雜度低。因此,本文在所構(gòu)建的模型中利用注意力機(jī)制從視覺特征中獲得與音頻特征相關(guān)的部分,從而減少視覺特征中無關(guān)信息的干擾,提高視覺信息的利用率,注意力機(jī)制的表達(dá)公式為
其中,Q,K,V分別表示查詢、鍵、值,dk表示K的維度大小。
受Transformer[26]多頭注意力啟發(fā),跨模態(tài)融合模塊將采用跨模態(tài)注意力融合(Cross-Modal Attention, CMA)策略,在式(5)中加入可學(xué)習(xí)參數(shù)λ,這樣不僅能自適應(yīng)地調(diào)整注意力權(quán)重,還能作為殘差連接I(fm),加快模型收斂速度。由式(5)可得自注意力跨模態(tài)融合(Scaled dot-product Cross-Modal Attention, SCMA)機(jī)制,表示為
其中,視覺特征fvm經(jīng)過2維卷積得到Qvm和Kvm,音頻特征fa經(jīng)過2維卷積得到Va,d是Qvm,Kvm和Va的維度,輸出為視聽融合特征。
多頭注意力的特點(diǎn)是利用多個(gè)子空間讓模型去關(guān)注更多的視覺信息,為了進(jìn)一步增強(qiáng)模型擬合性能,充分利用不同模態(tài)的相互關(guān)系,在SCMA基礎(chǔ)上,采用多頭注意力跨模態(tài)融合(multiple Head Cross-Modal Attention, HCMA),利用多個(gè)子空間讓模型去關(guān)注不同方面的信息。HCMA可根據(jù)式(7)-式(9)來計(jì)算
其中,i表示多頭注意力頭數(shù),WiQ,WiK和WiV表示權(quán)重訓(xùn)練矩陣,Qvmi,Kvmi,Vai分別表示不同子空間下Qvm,Kvm,Va, headi表示自注意力的融合結(jié)果。
2.2.4 語音分離網(wǎng)絡(luò)
DPRNN網(wǎng)絡(luò)是在深層模型中對RNN進(jìn)行了優(yōu)化,在對音頻信號分離過程中可將較長的音頻分割成小塊,并迭代地應(yīng)用塊內(nèi)和塊間操作,使其面對長序列時(shí)也可以高效處理。因此,本文基于DPRNN網(wǎng)絡(luò)[18],并結(jié)合Wu等人[19]的研究成果,提出MHATDAVSS的語音分離模型。
本文的DPRNN分為3個(gè)階段:分段、塊處理和重疊相加。輸入為音視頻特征fav,首先進(jìn)行分段處理,將fav分割成重疊的塊,分割的第1塊和最后一塊用零填充,保證各個(gè)分割后的塊等長,然后將分割后的音視頻特征塊連接在一起,形成一個(gè)3D張量。
在語音分離領(lǐng)域,常用以下指標(biāo)衡量分離效果:客觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality, PESQ)指標(biāo),衡量語音的感知能力;短時(shí)客觀可懂度(Short-Time Objective Intelligibility, STOI)指標(biāo),衡量分離語音的可懂度;源失真比(Signal-to-Distortion Ratio, SDR)指標(biāo),衡量語音的分離能力。本文所用的3種評價(jià)指標(biāo),計(jì)算過程為:
(1)PESQ。PESQ是衡量語音質(zhì)量的常用指標(biāo)之一,算法過程是首先對源信號和分離出來的語音信號進(jìn)行電平調(diào)整,然后對調(diào)整后的標(biāo)準(zhǔn)電平進(jìn)行濾波處理,并使用聽覺轉(zhuǎn)換,再通過認(rèn)知操作計(jì)算PESQ的值。PESQ的計(jì)算表達(dá)式為
其中,dSYM為對稱干擾,dASYM為非對稱干擾。
(2)STOI。STOI是衡量語音可懂度指標(biāo),對于語音信號中的某段內(nèi)容,人們只有懂或者不懂兩種情況。從這個(gè)角度考慮,可以將“懂”量化為1,“不懂”量化為0。計(jì)算STOI的表達(dá)式為
其中,J為頻帶數(shù),N為幀數(shù),dj,n為分離后語音與原始語音之間的短時(shí)譜向量的相關(guān)系數(shù)。
(3)SDR。SDR可以說明信號之間的失真比,是語音分離常用評價(jià)指標(biāo),計(jì)算表達(dá)式為
其中,Starget為分離出來的語音信號;einterf為干擾信號;enoise為加性噪聲;eartif為算法構(gòu)件所產(chǎn)生的干擾信號。
本文利用上述3種評價(jià)方法,對提出的語音分離模型進(jìn)行性能評估。
VoxCeleb2是由牛津大學(xué)Chung等人[27]收集YouTube錄像資料制作的音視頻數(shù)據(jù)集,數(shù)據(jù)集共有100萬條視頻片段。這些視頻片段來自全球6 000多名發(fā)言者視頻。VoxCeleb2數(shù)據(jù)集包含了140多個(gè)不同民族、不同語言,并且口音、說話者年齡、說話者性別比較均衡。該數(shù)據(jù)集主要由演講和采訪視頻組成,其中每個(gè)片段只有一個(gè)人的圖像,視頻片段時(shí)間由4 ~20 s不等,這些錄像都經(jīng)過了人臉識別和人臉跟蹤處理,保證了說話人的臉是在圖片里的,并且唇部是在圖片中間的。
從VoxCeleb2數(shù)據(jù)集下載40 000個(gè)視頻片段。首先利用FFmpeg對40 000個(gè)視頻片段進(jìn)行裁剪,使得每個(gè)視頻片段長度為3 s。然后將40 000個(gè)視頻片段隨機(jī)分成4等份,每份有10 000個(gè)視頻片段,分別作為說話者1、說話者2、說話者3和說話者4的數(shù)據(jù)來源。最后對各個(gè)說話者的視頻片段進(jìn)行編號。
針對兩個(gè)說話者情況,將說話者1和說話者2進(jìn)行對應(yīng)編號混合,獲得10 000個(gè)混合語音,隨機(jī)選取9 000個(gè)視頻片段作為模型的訓(xùn)練集,剩余的1 000個(gè)作為測試集。
針對3個(gè)說話者情況,將說話者1、說話者2和說話者3進(jìn)行對應(yīng)編號混合,獲得10 000個(gè)混合語音,隨機(jī)選取9 000個(gè)視頻片段作為模型的訓(xùn)練集,剩余的1 000個(gè)作為測試集。
針對4個(gè)說話者情況,將說話者1、說話者2、說話者3和說話者4進(jìn)行對應(yīng)編號混合,獲得10 000個(gè)混合語音,隨機(jī)選取9 000個(gè)視頻片段作為模型的訓(xùn)練集,剩余的1 000個(gè)作為測試集。
本文提出的跨模態(tài)融合MHATD-AVSS網(wǎng)絡(luò),是用Pytorch工具包實(shí)現(xiàn)的。唇部數(shù)據(jù)和音頻數(shù)據(jù)的處理基于文獻(xiàn)[19],并對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。使用權(quán)重衰減為 10-2的AdamW作為網(wǎng)絡(luò)優(yōu)化器,在本次訓(xùn)練過程中,設(shè)置的batch size為10,共進(jìn)行了500個(gè)周期,設(shè)置的初始學(xué)習(xí)率(learning rate)為 1×10-4。如果連續(xù)5個(gè)周期損失沒有降低,則學(xué)習(xí)率會變?yōu)樵瓉淼?/10。實(shí)驗(yàn)設(shè)備采用處理器Intel(R)Core(TM) i7-9700 CPU @ 3.00 GHz,安裝內(nèi)存32,操作系統(tǒng)64位Windows10,GPU型號GEFORCE RTX2080 Ti,實(shí)驗(yàn)在GPU模式下運(yùn)行。
(1)為了分析跨模態(tài)融合的MHATD-AVSS網(wǎng)絡(luò)性能,以兩個(gè)說話者分離情況為例,利用SDR, PESQ及STOI評價(jià)語音分離效果,結(jié)果如表1所示。表中,TCN+“特征拼接”表示分離網(wǎng)絡(luò)使用TCN,視聽融合采用特征拼接方法的AV基線;DPRNN+“特征拼接”表示分離網(wǎng)絡(luò)使用DPRNN,視聽融合采用特征拼接方法的網(wǎng)絡(luò)結(jié)構(gòu);TCN+SCMA表示分離網(wǎng)絡(luò)使用TCN,視聽融合采用自注意力跨模態(tài)融合的網(wǎng)絡(luò)結(jié)構(gòu);TCN+HCMA表示分離網(wǎng)絡(luò)使用TCN,視聽融合采用多頭注意力跨模態(tài)融合的網(wǎng)絡(luò)結(jié)構(gòu);DPRNN+SCMA表示分離網(wǎng)絡(luò)使用DPRNN,視聽融合采用自注意力跨模態(tài)融合的網(wǎng)絡(luò)結(jié)構(gòu)。
表1 MHATD-AVSS模型的消融實(shí)驗(yàn)
由表1可知,DPRNN+特征拼接的SDR值為9.53 dB,相比較AV基線未采用DPRNN分離網(wǎng)絡(luò)的SDR提升了0.38 dB,說明使用DPRNN分離網(wǎng)絡(luò),可以更好地進(jìn)行建模,有效提高視聽語音分離性能。DPRNN+SCMA, MHATD-AVSS的SDR值分別為10.31 dB, 11.02 dB,相比DPRNN+“特征拼接”,SDR分別提高了0.78 dB, 1.49 dB,說明采用模態(tài)注意力,相比特征拼接,能更好地利用不同模態(tài)之間的相互關(guān)系,得到更理想的視聽特征。MHATDAVSS的SDR值為11.02 dB,相比DPRNN+SCMA, SDR提高了0.71 dB,說明采用多頭注意力跨模態(tài)融合,相比自注意力跨模特融合,可以利用多個(gè)學(xué)習(xí)的權(quán)重矩陣,可以獲得更多與音頻特征關(guān)聯(lián)性強(qiáng)的視覺信息,獲得更好的分離性能。
(2)由于測試集、服務(wù)器配置等不同,評價(jià)結(jié)果也不同。為了提高對比的準(zhǔn)確性,針對不同說話者情況,利用本實(shí)驗(yàn)室服務(wù)器的配置環(huán)境,在本文測試集下對時(shí)域純語音分離網(wǎng)絡(luò)Conv-TasNet[17]、時(shí)域視聽分離網(wǎng)絡(luò)AV模型[19]和文獻(xiàn)[24]進(jìn)行了復(fù)現(xiàn),并與MHATD-AVSS模型進(jìn)行對比,結(jié)果如表2所示。
表2 同一數(shù)據(jù)集、服務(wù)器下不同模型多說話者分離結(jié)果
由表2可知,在兩個(gè)說話者語音混合情況下,采用多頭注意力跨模態(tài)融合MHATD-AVSS,相比較時(shí)域純語音分離網(wǎng)絡(luò)Conv-TasNet、文獻(xiàn)[19]時(shí)域視聽分離模型和文獻(xiàn)[24]對抗性視聽語音分離網(wǎng)絡(luò),SDR分別提高了2.09 dB, 1.87 dB, 1.18 dB;3個(gè)說話者語音混合情況下,SDR分別提高了2.29 dB,2.05 dB, 1.17 dB;4個(gè)說話者語音混合情況下,SDR分別提高了2.14 dB, 1.93 dB, 1.06 dB。說明時(shí)域視聽跨模態(tài)融合語音分離網(wǎng)絡(luò)與時(shí)域純語音分離網(wǎng)絡(luò)相比,利用視覺信息輔助音頻信息,能具有更好的抗干擾能力,獲得更好的分離效果;相比較文獻(xiàn)[19]時(shí)域視聽分離模型和文獻(xiàn)[24]對抗性視聽語音分離網(wǎng)絡(luò),采用了跨模態(tài)融合的方案,相比較音頻特征與視覺特征拼接的方法,能更好地利用視覺信息與音頻信息的相關(guān)性。
由表2還可知,隨著說話者人數(shù)的增多,各個(gè)網(wǎng)絡(luò)的分離效果都有所下降,相對于2個(gè)說話人混合的分離結(jié)果,3個(gè)說話人混合的分離結(jié)果略微下降,4個(gè)說話人混合的分離結(jié)果則有明顯下降。由此可見,當(dāng)4個(gè)說話人或者更多說話者混合是處在一個(gè)極度嘈雜環(huán)境中時(shí),對網(wǎng)絡(luò)模型的分離能力將提出更高要求。
本文針對單通道多說話者語音分離,提出一種基于Conv-TasNet模型和跨模態(tài)注意力融合的時(shí)域視聽語音分離模型。采用DPRNN分離網(wǎng)絡(luò),在深層模型中對RNN網(wǎng)絡(luò)進(jìn)行優(yōu)化,使其面對長序列時(shí)也可以高效處理。采用注意力機(jī)制進(jìn)行跨模態(tài)視聽特征融合,可以充分利用音頻流和視頻流之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,本文提出的基于Conv-TasNet時(shí)域視聽跨模態(tài)融合語音分離網(wǎng)絡(luò)在SDR, PESQ和STOI 3個(gè)指標(biāo)上,都優(yōu)于純語音分離和采用特征拼接的視聽語音分離網(wǎng)絡(luò)。