亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多模態(tài)感知的雙聲道音頻生成方法

        2022-12-27 13:14:56樊夢(mèng)佳
        關(guān)鍵詞:特征分析模型

        官 麗,尹 康,樊夢(mèng)佳,薛 昆,解 凱

        (1.國(guó)網(wǎng)北京市電力公司,北京 100031;2. 南京南瑞繼保電氣有限公司,江蘇 南京 211102)

        人類聽(tīng)覺(jué)系統(tǒng)能夠根據(jù)音頻在兩耳間的聲級(jí)差以及聲音到達(dá)兩耳的時(shí)間差來(lái)定位音源方位與距離,感受環(huán)境的空間分布[1]。然而,目前大部分視頻仍然使用單聲道音頻,無(wú)法通過(guò)左右聲道的差異重現(xiàn)人類的真實(shí)聽(tīng)覺(jué)感受,視頻中的空間位置并沒(méi)有在音頻中得以體現(xiàn),從而降低了觀看體驗(yàn),無(wú)法還原真實(shí)的空間化聽(tīng)覺(jué)感受。此外,獲取高質(zhì)量雙聲道音頻需要專業(yè)錄制設(shè)備,難以應(yīng)用到日常的視頻場(chǎng)景中。因此,如何為單聲道的視頻生成對(duì)應(yīng)的雙聲道音頻,以重現(xiàn)更加真實(shí)的雙耳聽(tīng)覺(jué)體驗(yàn),是近年來(lái)音頻生成研究的一個(gè)挑戰(zhàn)性問(wèn)題。

        生成立體感音頻面臨的關(guān)鍵挑戰(zhàn)是如何向音頻中添加空間化的信息。為了向音頻添加額外的空間特征,往往需要視頻內(nèi)容輔助完成,以定位畫面中音源,根據(jù)不同畫面內(nèi)容分離對(duì)應(yīng)音頻,為360°全景視頻畫面生成雙聲道音頻。Gao等人提出了一種雙聲道音頻生產(chǎn)網(wǎng)絡(luò)模型[2],其使用ResNet[3]來(lái)處理視頻特征,以編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型完成音頻生成,并提出了預(yù)測(cè)左右聲道差值而非直接預(yù)測(cè)左右聲道信號(hào)的方法,根據(jù)左右聲道差值重建得到音頻信號(hào),從而有效驅(qū)使模型學(xué)習(xí)視頻信息,幫助模型更快收斂。Morgado等人提出了一種針對(duì)全景視頻生成立體混響音頻的模型[4],其首先將音頻根據(jù)音源進(jìn)行分離定位,再根據(jù)音源的空間分布組合各個(gè)音源得到立體混響音頻,同時(shí),該模型在使用ResNet提取視頻特征的基礎(chǔ)上,還使用FlowNet2[5]提取視頻的動(dòng)態(tài)特征,但是該模型較為復(fù)雜,且主要針對(duì)全景視頻,無(wú)法直接完成普通視頻的雙聲道音頻生成。此外,一些音頻空間化的研究工作實(shí)現(xiàn)了對(duì)視頻畫面中不同音源的定位與分離,不僅在畫面中標(biāo)識(shí)音源的位置,也分離出該音源對(duì)應(yīng)的音頻[6,7],從而發(fā)掘音頻與空間之間的聯(lián)系,有益于實(shí)現(xiàn)視頻畫面信息與音頻信息的互相補(bǔ)足。

        本文構(gòu)建了一個(gè)端到端模型,以視頻的畫面和單聲道音頻為輸入,使用深層卷積神經(jīng)網(wǎng)絡(luò),分別提取視頻的畫面以及音頻特征,并嘗試將視覺(jué)特征以及音頻特征進(jìn)行融合分析,將視頻畫面中包含的空間信息以及原始的音頻內(nèi)容進(jìn)行整合,從而生成攜帶空間化信息的雙聲道音頻。本文的主要貢獻(xiàn)有三個(gè)方面:(1)構(gòu)建了一個(gè)為單聲道視頻生成包含空間化信息的雙聲道音頻的端到端深度學(xué)習(xí)模型,該模型包含視覺(jué)分析模塊與音頻分析模塊兩部分,利用深層卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別視頻中的視覺(jué)特征以及音頻特征,并將視頻特征融合進(jìn)音頻特征,經(jīng)音頻分析模塊處理,生成對(duì)應(yīng)的雙聲道音頻內(nèi)容。(2)設(shè)計(jì)了一種新穎的音頻視頻融合分析網(wǎng)絡(luò)Audio-Visual U-Net,實(shí)現(xiàn)了針對(duì)音頻內(nèi)容與視頻內(nèi)容的多模態(tài)分析,完成雙聲道音頻的生成。該網(wǎng)絡(luò)能夠多層次、多尺度地融合視頻特征與音頻特征,更好地將視頻畫面中的空間信息整合進(jìn)音頻中,實(shí)現(xiàn)對(duì)視覺(jué)特征的高效利用,最終提升模型效果。(3)在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文所提方法優(yōu)于現(xiàn)有方法,能夠生成高質(zhì)量的雙聲道音頻。

        1 模型框架

        提出的雙聲道音頻生成模型以及工作原理如圖1所示,主要包括四個(gè)部分:(1)視覺(jué)特征(Visual Feature)提取與分析;(2)音頻特征(Audio Feature)提取與分析;(3)視覺(jué)和音頻特征融合;(4)雙聲道音頻生成。視覺(jué)分析模塊對(duì)輸入的視頻畫面進(jìn)行特征提取,音頻分析模塊則對(duì)輸入的單聲道頻譜進(jìn)行特征提取,視覺(jué)特征與音頻特征在Audio-Visual U-Net網(wǎng)絡(luò)中進(jìn)行融合,并由復(fù)合特征預(yù)測(cè)得到雙聲道音頻對(duì)應(yīng)的頻譜掩蔽,將輸出的復(fù)值掩蔽應(yīng)用于單聲道頻譜可得到左右聲道音頻差的頻譜,再將得到的頻譜進(jìn)行逆STFT變換,即可得到左右聲道音頻差,從而還原得到左右聲道的音頻信號(hào)。

        圖1 基于多模態(tài)感知的雙聲道音頻生成模型

        2 視覺(jué)特征的提取與分析

        視覺(jué)特征能夠?yàn)橐纛l內(nèi)容的深度學(xué)習(xí)任務(wù)提供幫助[6,8]。為了實(shí)現(xiàn)雙聲道音頻生成,需要分析視頻畫面中的空間信息,通過(guò)畫面了解不同聲源物體在場(chǎng)景中的具體位置,判斷聲音從什么方向、經(jīng)過(guò)多遠(yuǎn)距離傳遞到觀察者位置,從而了解當(dāng)前場(chǎng)景中的空間布局,確定聲音在環(huán)境中的混響或回聲狀況。如圖2所示的例子,通過(guò)分析視頻畫面可以對(duì)聲源(彈琴者)和聽(tīng)眾進(jìn)行定位,這些位置和空間特征對(duì)雙聲道音頻生成非常有用。

        為實(shí)現(xiàn)以上視覺(jué)特征的提取,本文使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)完成雙聲道音頻生成模型中的視覺(jué)分析任務(wù)[9, 10],即使用現(xiàn)有的圖像分類深度學(xué)習(xí)模型提取視覺(jué)特征。本文采用預(yù)訓(xùn)練的視覺(jué)圖像網(wǎng)絡(luò)來(lái)完成視覺(jué)分析工作,對(duì)預(yù)訓(xùn)練模型在具體的數(shù)據(jù)集上進(jìn)行微調(diào)以適應(yīng)雙聲道音頻生成任務(wù)。這不僅能夠有效減少模型訓(xùn)練的成本,同時(shí)得到的模型經(jīng)過(guò)遷移后也能夠有較好的泛化能力?;谏顚泳矸e神經(jīng)網(wǎng)絡(luò)的圖像分析模型較多,如ResNet[3]、DenseNet[11]、GoogleNet[12]等。然而,這些模型不能直接用于處理視頻。一方面,上述模型均以單張圖像作為處理對(duì)象,而視頻是連續(xù)的畫面幀。另一方面,這些模型主要用于圖像分類任務(wù),并不適用于雙聲道音頻生成任務(wù),因此需要對(duì)其進(jìn)行修改和調(diào)整,使其適應(yīng)針對(duì)雙聲道音頻生成的視覺(jué)分析任務(wù)。

        圖2 視頻分析在雙聲道音頻生成中的作用示例

        為解決對(duì)視頻中連續(xù)的畫面幀的處理的問(wèn)題,本文使用關(guān)鍵畫面幀代替短片段內(nèi)的視頻畫面。具體而言,將一段視頻劃分為長(zhǎng)度t(t<1.0)秒的多個(gè)連續(xù)視頻片段,針對(duì)每一個(gè)視頻片段,抽取中間位置的畫面幀作為關(guān)鍵幀,并作為該視頻片段的視覺(jué)輸入??紤]短片段內(nèi)視頻內(nèi)容不會(huì)發(fā)生較大變化,關(guān)鍵畫面幀基本能夠反映視頻片段內(nèi)的大致視覺(jué)狀況。為調(diào)整模型使其適應(yīng)雙聲道音頻生成的視覺(jué)分析任務(wù),本文在模型中保留原始網(wǎng)絡(luò)中特征提取部分,去除網(wǎng)絡(luò)中末端的分類器部分,只獲取模型隱藏層提取的視覺(jué)特征。多個(gè)隱藏層能捕獲輸入圖像對(duì)應(yīng)的高維視覺(jué)特征,這些特征將被輸入至后續(xù)的音頻分析模塊中,利用音頻視頻融合網(wǎng)絡(luò),將視覺(jué)特征整合至音頻內(nèi)容之中。此外,本文還采用遷移學(xué)習(xí)進(jìn)一步提升模型的泛化能力。首先使用預(yù)訓(xùn)練的權(quán)重來(lái)初始化網(wǎng)絡(luò),然后使用較小的學(xué)習(xí)率對(duì)模型進(jìn)行微調(diào),讓網(wǎng)絡(luò)適應(yīng)當(dāng)前的數(shù)據(jù)集,從而避免使用重新初始化的權(quán)重從頭進(jìn)行訓(xùn)練,可加快模型的訓(xùn)練速度,同時(shí)也提高網(wǎng)絡(luò)的泛化能力。

        3 音頻特征的提取與分析

        原始音頻信號(hào)為音頻的時(shí)序采樣序列,包含每一個(gè)離散采樣點(diǎn)的信號(hào)值,其數(shù)據(jù)格式為一維數(shù)組,數(shù)組的長(zhǎng)度=音頻時(shí)長(zhǎng)(T)×音頻采樣率(S)。其中,音頻采樣率代表錄音設(shè)備在一秒鐘內(nèi)對(duì)聲音信號(hào)的采樣次數(shù)。越高的采樣率意味著能更加精準(zhǔn)地還原原始音頻信號(hào),但單位時(shí)間內(nèi)的數(shù)據(jù)量也會(huì)增加。普通的單聲道音頻只包含一個(gè)音頻序列,雙聲道音頻則包含左右兩個(gè)差異化的音頻序列。

        原始音頻信號(hào)只包含時(shí)序上的波形信息,音頻頻域上的分布特征無(wú)法直接通過(guò)原始音頻信號(hào)獲取。為了分析頻域上的特征,需要對(duì)音頻進(jìn)行傅立葉變換。隨著時(shí)間變化,音頻信號(hào)頻域的分布特征也在變化。這種非平穩(wěn)信號(hào)不適用于普通的傅立葉分析。為了獲取音頻在頻域以及時(shí)域上的特征,需要對(duì)音頻信號(hào)進(jìn)行時(shí)頻分析,本文選擇使用短時(shí)傅立葉變換STFT(Short-Time Fourier Transform)[13]進(jìn)行時(shí)頻分析。STFT能夠獲取時(shí)域以及頻域兩個(gè)維度的信號(hào)分布,能夠更加清晰地呈現(xiàn)音頻信號(hào)特征,表示為:

        (1)

        其中,x[n]表示在n時(shí)刻的輸入信號(hào),w[n]是對(duì)應(yīng)的窗口函數(shù)。STFT是傳統(tǒng)傅立葉變換的拓展,對(duì)時(shí)序數(shù)據(jù)在時(shí)間維度上以一定的窗口函數(shù)截取小范圍的信號(hào),再對(duì)該窗口內(nèi)的信號(hào)進(jìn)行離散傅立葉變換,即可得到該取樣幀內(nèi)的頻譜狀態(tài)。將各取樣幀的頻譜在時(shí)間維度上進(jìn)行堆疊,便得到了時(shí)間維度上的頻譜變化。圖3中方框框選的區(qū)域表示了相同時(shí)間幀內(nèi)的音頻的原始波形,以及在對(duì)應(yīng)的時(shí)頻頻譜中的分布。

        圖3 音頻信號(hào)的STFT變換

        音頻和視頻通過(guò)時(shí)間實(shí)現(xiàn)關(guān)聯(lián)。沿著時(shí)間維度,每組幀的頻譜通常會(huì)有重疊區(qū)域,以避免因切割方式造成幀之間的邊界誤差。為了減少在截取信號(hào)時(shí)造成的頻譜泄漏,需要在截取過(guò)程中使用窗函數(shù),將原始信號(hào)與窗函數(shù)進(jìn)行點(diǎn)乘操作。窗函數(shù)要求其中央位置取值最大,且由中央向左右兩側(cè)單調(diào)遞減為零,從而減少截取幀之間的干擾。本文選擇Hanning窗函數(shù):

        (2)

        使用視頻分析頻譜作為音頻分析的輸入有利于數(shù)據(jù)的分析處理。經(jīng)過(guò)STFT變換后得到的音頻頻譜為一個(gè)二維復(fù)值矩陣,對(duì)復(fù)值頻譜取絕對(duì)值得到的幅值為對(duì)應(yīng)的頻譜幅度,復(fù)數(shù)輻角則是對(duì)應(yīng)頻譜的相位,因此復(fù)值頻譜同時(shí)包含了頻譜幅度與相位的信息,在信息含量上更為豐富。同時(shí)可以對(duì)頻譜使用傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行進(jìn)一步的特征提取工作。由于時(shí)頻分析頻譜同時(shí)包含了音頻信號(hào)在頻域以及時(shí)域維度上的信息,相較于只有時(shí)序維度的原始波形信號(hào),能夠更有效地提取其音頻成分的特征。短時(shí)傅立葉變換是可逆的,因此在生成音頻時(shí)可以直接以音頻的時(shí)頻頻譜作為預(yù)測(cè)目標(biāo),對(duì)頻譜進(jìn)行逆短時(shí)傅立葉變換即可還原原始音頻。

        4 雙聲道音頻生成

        雙聲道音頻生成任務(wù)的目標(biāo)是得到盡可能精準(zhǔn)的左右聲道音頻,而該任務(wù)可以視為一種特殊的音頻分離任務(wù),即從原始的混合音頻中分離出左右聲道對(duì)應(yīng)的音頻信息。音頻分離任務(wù)的傳統(tǒng)解決方法包括有監(jiān)督以及無(wú)監(jiān)督的方法。有監(jiān)督的音頻分離方法使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)原始音頻以及目標(biāo)音頻之間的映射,通過(guò)隱藏層以及非線性激活函數(shù)的組合來(lái)發(fā)掘音頻特征間的關(guān)聯(lián),實(shí)現(xiàn)端到端的音頻生成。然而,有監(jiān)督方法需要大量的樣本數(shù)據(jù)并需進(jìn)行數(shù)據(jù)標(biāo)注,費(fèi)時(shí)耗力且成本高。無(wú)監(jiān)督的音頻分離方法以原始音頻的聲學(xué)特征作為分離的依據(jù),采用非負(fù)矩陣分解等實(shí)現(xiàn)分離[6, 14]。然而,無(wú)監(jiān)督的方法難以推廣到復(fù)雜音頻環(huán)境下。例如,環(huán)境中包含大量未知噪音時(shí),其在面對(duì)現(xiàn)實(shí)環(huán)境的應(yīng)用場(chǎng)景時(shí)會(huì)較為吃力。

        本文采用自監(jiān)督的雙聲道音頻分離方法實(shí)現(xiàn)雙聲道音頻生成。該方法以時(shí)頻中包含的左右聲道音頻作為模型的預(yù)測(cè)目標(biāo),通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)音頻的預(yù)測(cè)。作為訓(xùn)練目標(biāo)的左右聲道音頻是視頻數(shù)據(jù)中自然攜帶的,因此任何包含雙聲道音頻的視頻都能夠作為雙聲道音頻分離任務(wù)的訓(xùn)練數(shù)據(jù),無(wú)需額外的人工標(biāo)記工作。

        對(duì)于音頻分離任務(wù),頻譜掩蔽是實(shí)現(xiàn)頻譜分離的常用手段。由于直接以音頻的原始時(shí)序信號(hào)作為模型輸入以及輸出無(wú)法充分解析音頻內(nèi)容,模型難以收斂,無(wú)法得到精確的音頻輸出結(jié)果,因此在輸出階段也以音頻的時(shí)頻頻譜作為模型的預(yù)測(cè)目標(biāo),這可以通過(guò)頻頻掩碼來(lái)進(jìn)行預(yù)測(cè)[15, 16]。頻譜掩蔽是一個(gè)與輸入頻譜尺寸相同的矩陣,通過(guò)將原始頻譜S0與掩蔽M進(jìn)行乘積操作,可得到目標(biāo)頻譜St:

        St=M·S0

        (3)

        使用頻譜掩蔽作為雙聲道音頻生成模型的預(yù)測(cè)對(duì)象能夠減少模型學(xué)習(xí)的信息量,取值分布較為穩(wěn)定的掩蔽也便于模型的學(xué)習(xí)以及收斂。

        這里的頻譜掩蔽采用直接在復(fù)數(shù)域進(jìn)行掩蔽操作的理想復(fù)值掩蔽,它能夠減小模型的運(yùn)算量。復(fù)值掩蔽需要原始頻譜與掩蔽在復(fù)數(shù)域進(jìn)行乘積運(yùn)算,針對(duì)目標(biāo)音頻的復(fù)值掩蔽操作表示為:

        R(St)=R(M)·R(S0)-I(M)·I(S0)

        (4)

        I(St)=R(M)·I(S0)-I(M)·R(S0)

        (5)

        其中,R(*)表示復(fù)值頻譜的實(shí)部,I(*)表示虛部。

        一般的音頻分離可能存在多個(gè)分離目標(biāo),而雙聲道音頻生成任務(wù)的分離對(duì)象僅有左右聲道音頻兩個(gè)對(duì)象,并且分離對(duì)象的指定范圍較為明確,即畫面中左右部分對(duì)應(yīng)的音頻。因此,雙聲道音頻生成可以利用這種約束來(lái)提升模型效果。

        真實(shí)數(shù)據(jù)中的左右聲道音頻差SD(t)可表示為:

        SD(t)=SL(t)-SR(t)

        (6)

        已知輸入的混合音頻SM(t)為:

        SM(t)=SL(t)+SR(t)

        (7)

        (8)

        (9)

        通過(guò)預(yù)測(cè)音頻差來(lái)實(shí)現(xiàn)左右聲道的還原,更加符合雙聲道音頻的特性。雙聲道音頻正是利用左右聲道音頻的差異來(lái)實(shí)現(xiàn)音頻的空間感,以左右聲道之差作為模型的預(yù)測(cè)目標(biāo),能夠迫使模型關(guān)注左右聲道音頻的差異,得到更加真實(shí)的左右聲道音頻。同時(shí)相較于預(yù)測(cè)完整音頻,預(yù)測(cè)音頻差模型需要學(xué)習(xí)的內(nèi)容更少,能夠使得模型更快收斂,得到更好的預(yù)測(cè)效果。

        5 音頻和視頻融合分析網(wǎng)絡(luò)

        本文設(shè)計(jì)了一種類似U-Net的網(wǎng)絡(luò)架構(gòu)[17]實(shí)現(xiàn)音頻分析以及雙聲道音頻生成。U-Net由對(duì)稱的編碼器及解碼器兩個(gè)網(wǎng)絡(luò)組成,編碼器是多層的卷積神經(jīng)網(wǎng)絡(luò),對(duì)輸入數(shù)據(jù)進(jìn)行下采樣,提取高層次特征,解碼器則對(duì)高層次特征進(jìn)行上采樣,上采樣通過(guò)轉(zhuǎn)置卷積操作實(shí)現(xiàn),將高度壓縮的數(shù)據(jù)特征還原為原始尺寸的輸出結(jié)果。MONO2BINAURAL[2]是基于U-Net的雙聲道音頻生成的深度學(xué)習(xí)模型,它保留了原始U-Net的大部分結(jié)構(gòu),但在音頻解碼器的輸入階段引入了視覺(jué)特征。本文進(jìn)一步改進(jìn)了MONO2BINAURAL的網(wǎng)絡(luò)結(jié)構(gòu),提出了一種新的融合音頻和視頻的雙聲道音頻生成模型Audio-Visual U-Net,該模型加強(qiáng)了對(duì)視覺(jué)特征的融合,將視覺(jué)特征在音頻生成網(wǎng)絡(luò)中進(jìn)行復(fù)用,以確保音頻信息與視覺(jué)信息充分融合。

        如圖4所示,Audio-Visual U-Net模型同樣包含編碼器和解碼器兩個(gè)模塊。編碼器與解碼器均包含5層的卷積神經(jīng)網(wǎng)絡(luò)。編碼器部分與傳統(tǒng)U-Net相似,以混合單聲道音頻的頻譜作為輸入,使用二維卷積網(wǎng)絡(luò)完成下采樣過(guò)程,卷積核大小為4 × 4,同時(shí)加入LeakyRelu作為激活函數(shù)以及Batch Normalization,音頻頻譜掩蔽的輸出使用Sigmoid激活函數(shù)將輸出范圍限定為[0,1],再將輸出范圍映射至[-1,1],以實(shí)現(xiàn)對(duì)音頻頻譜中的特征的提取。在解碼器部分則引入了加強(qiáng)的視覺(jué)特征融合,在上采樣階段的每一網(wǎng)絡(luò)層,原始的視覺(jué)特征會(huì)經(jīng)過(guò)視覺(jué)融合模塊(Visual Fusion),視覺(jué)融合模塊保留了MONO2BINAURAL中使用的1×1卷積降維方式,對(duì)輸入的視覺(jué)特征進(jìn)行壓縮。壓縮后的視覺(jué)特征通過(guò)拼接的方式與音頻特征合并。同時(shí),模型針對(duì)視覺(jué)特征融合進(jìn)行了加強(qiáng),將視覺(jué)融合模塊拓展至上采樣階段的每一個(gè)網(wǎng)絡(luò)層中,實(shí)現(xiàn)多尺度、多層次的視覺(jué)特征融合。上采樣的每一個(gè)階段均有單獨(dú)的視覺(jué)融合層,能夠針對(duì)上采樣的不同階段篩選不同的視覺(jué)特征。上采樣階段不同的網(wǎng)絡(luò)層關(guān)注的往往是不同尺度的數(shù)據(jù)特征,單一的視覺(jué)特征輸入在經(jīng)過(guò)降維壓縮后能夠攜帶的信息量已經(jīng)被縮減,無(wú)法充分滿足不同尺度下信息需求。因此根據(jù)不同的上采樣階段,選擇合適 的視覺(jué)特征,讓不同的網(wǎng)絡(luò)層關(guān)注不同的視覺(jué)特征,能夠更高效地利用輸入的視覺(jué)特征。上采樣階段也保留了跳躍連接,因此上采樣網(wǎng)絡(luò)層的輸入是同階段的下采樣特征、上一階段的上采樣輸出、降維后的視覺(jué)特征三者的融合。上采樣操作由轉(zhuǎn)置卷積完成,音頻以及視頻的融合特征經(jīng)過(guò)5層的上采樣,最終輸出預(yù)測(cè)的音頻頻譜掩蔽。

        圖4 Audio-Visual U-Net網(wǎng)絡(luò)

        Audio-Visual U-Net模型的訓(xùn)練目標(biāo)為左右聲道之差對(duì)應(yīng)的STFT頻譜,使用目標(biāo)頻譜與預(yù)測(cè)頻譜的均方誤差作為損失函數(shù),以衡量預(yù)測(cè)頻譜與目標(biāo)頻譜之間的差距。

        (10)

        復(fù)值頻譜的實(shí)部以及虛部已經(jīng)被單獨(dú)分離為輸入的兩個(gè)通道,因此損失函數(shù)均在實(shí)數(shù)域完成計(jì)算。

        6 實(shí)驗(yàn)結(jié)果與分析

        6.1 數(shù)據(jù)集、評(píng)估指標(biāo)和對(duì)比基準(zhǔn)

        本文在視頻數(shù)據(jù)集FARI-Play數(shù)據(jù)集[2]上驗(yàn)證所提方法對(duì)雙聲道音頻生成的性能。該數(shù)據(jù)集包含1871個(gè)10秒左右的視頻,總時(shí)長(zhǎng)5.2小時(shí),數(shù)據(jù)總量約100G,其中的視頻數(shù)據(jù)使用專業(yè)雙耳麥克風(fēng)錄制,因此擁有高質(zhì)量的空間化音頻信號(hào)。視頻主要內(nèi)容為樂(lè)器演奏,也包含部分人聲。數(shù)據(jù)中包含了不同樂(lè)器在不同空間位置下的組合,能夠較為充分地體現(xiàn)出空間位置的變化。本文所提方法的視頻片段劃分長(zhǎng)度t=0.63秒,即按照0.63秒的滑動(dòng)窗口,將輸入的視頻劃分為多個(gè)連續(xù)的片段。同時(shí)為了減少由于片段截取邊緣造成的誤差,截取窗口以0.05秒的步長(zhǎng)沿時(shí)間軸移動(dòng),對(duì)視頻片段進(jìn)行逐個(gè)處理后將生成的音頻片段進(jìn)行疊加,在窗口重疊部分取其重疊音頻信號(hào)均值。模型訓(xùn)練中,采用隨機(jī)策略將80%數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集,10%為驗(yàn)證數(shù)據(jù)集,10%為測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果為模型重復(fù)運(yùn)行10次得到的平均值。

        實(shí)驗(yàn)采用STFT距離和包絡(luò)距離ENV作為評(píng)估指標(biāo)。STFT距離指對(duì)音頻信號(hào)進(jìn)行短時(shí)傅立葉變換后,計(jì)算出的兩個(gè)音頻頻譜的歐式距離:

        (11)

        其中,S表示原始音頻信號(hào)經(jīng)STFT變換得到的頻譜,表示歐式距離,預(yù)測(cè)音頻與原始音頻STFT距離越小,則生成效果越好。包絡(luò)距離ENV(Envelope Distance)則計(jì)算相應(yīng)音頻信號(hào)的頻譜包絡(luò),并計(jì)算包絡(luò)差值:

        (12)

        其中E[x]表示信號(hào)x的包絡(luò),預(yù)測(cè)音頻與目標(biāo)音頻計(jì)算所得包絡(luò)距離越小,則表示生成效果越好。

        為客觀對(duì)比本文所提模型的性能,選取了3種對(duì)比基準(zhǔn):(1)單聲道音頻(Mono-Audio):左右聲道直接使用相同的單聲道音頻,以此模擬雙聲道音頻,作為雙聲道音頻生成效果的下限基準(zhǔn)。(2)無(wú)視覺(jué)模型(Audio-Only):在本模型的基礎(chǔ)上,移除視覺(jué)分析模塊,僅以音頻信息作為模型的輸入,用于考察視覺(jué)信息在模型中體現(xiàn)的效果。(3)MONO2BINAURAL:一種基于U-Net的雙聲道音頻生成模型,也是目前公開(kāi)的性能最好的模型。

        6.2 實(shí)驗(yàn)設(shè)置

        模型實(shí)現(xiàn)基于PyTorch1.4.0框架,使用Python3.7實(shí)現(xiàn),并使用opencv、ffmpeg、PIL.Image和librosa等開(kāi)源庫(kù)實(shí)現(xiàn)音頻信號(hào)以及圖像的處理。

        實(shí)驗(yàn)中的主要參數(shù)設(shè)置包括:(1)模型訓(xùn)練的優(yōu)化器為Adam[18],其中,betas=(0.9,0.999),weight_decay=0.0005;(2)模型大致在400輪訓(xùn)練時(shí)收斂,因此將模型學(xué)習(xí)次數(shù)設(shè)定為500;(3)模型初始學(xué)習(xí)率為0.0001,學(xué)習(xí)率每10個(gè)epochs下降一次,學(xué)習(xí)率下降系數(shù)為0.94;(4)模型在樣本數(shù)量為1497的訓(xùn)練數(shù)據(jù)集上進(jìn)行反復(fù)訓(xùn)練的同時(shí),每20次訓(xùn)練迭代后,會(huì)在數(shù)量為187的驗(yàn)證數(shù)據(jù)上計(jì)算當(dāng)前驗(yàn)證損失,以觀察模型的泛化能力。

        6.3 實(shí)驗(yàn)結(jié)果

        表1展示了本文模型的雙聲道音頻生成性能以及與基線模型的對(duì)比。其中,單聲道音頻模型直接使用音頻信號(hào)計(jì)算,無(wú)訓(xùn)練的驗(yàn)證損失。實(shí)驗(yàn)結(jié)果表明,本文所提模型在STFT距離和ENV距離指標(biāo)上均優(yōu)于其他方法。(1)對(duì)比單聲道音頻與無(wú)視覺(jué)模型的結(jié)果,可見(jiàn)使用音頻數(shù)據(jù)的模型效果優(yōu)于原始單聲道音頻模型,說(shuō)明模型的音頻分析模塊能夠利用音頻內(nèi)容中的特征輔助進(jìn)行雙聲道音頻生成。但僅用音頻特征并不能取得較好雙聲道生成效果。(2)無(wú)視覺(jué)模型與本文模型的對(duì)比表明,使用了視覺(jué)分析的模型由于提供了視覺(jué)特征,能夠更好實(shí)現(xiàn)音頻的空間化,生成更加真實(shí)的雙聲道音頻。(3)本文方法的性能優(yōu)于MONO2BINAURAL模型,說(shuō)明Audio-Visual U-Net能夠更好地融合視覺(jué)特征以及音頻特征,實(shí)現(xiàn)對(duì)混合特征的更好利用與解析,充分挖掘視覺(jué)特征與音頻特征之間的聯(lián)系。

        表1 雙聲道音頻生成性能對(duì)比

        圖5使用模型生成的雙聲道音頻波形與數(shù)據(jù)集中原始的雙聲道音頻進(jìn)行對(duì)比示例,分別展示了一段視頻對(duì)應(yīng)的左聲道以及右聲道的音頻波形,其中藍(lán)色波形為數(shù)據(jù)的真實(shí)值,橙色波形為通過(guò)模型預(yù)測(cè)得到的音頻波形。對(duì)比結(jié)果表明預(yù)測(cè)音頻的波形與實(shí)際波形基本吻合,并且對(duì)于在左右聲道存在明顯差異的音頻片段,預(yù)測(cè)音頻能為左右聲道音頻預(yù)測(cè)出差異化的結(jié)果。如圖5中使用紅色邊框框選的區(qū)域,這部分的波形在左右聲道上存在明顯差異,部分的特征只出現(xiàn)在左聲道音頻中,在右聲道音頻中則被消除。而預(yù)測(cè)的音頻也基本能夠還原這種音頻差異,這種左右聲道的差異能夠讓音頻表現(xiàn)出空間感。

        圖5 雙聲道音頻生成結(jié)果與原始雙聲道音頻對(duì)比示例

        本文進(jìn)一步驗(yàn)證了視覺(jué)分析模塊中不同預(yù)訓(xùn)練網(wǎng)絡(luò)的消融實(shí)驗(yàn),結(jié)果如表2所示。其中,在相同的數(shù)據(jù)和訓(xùn)練參數(shù)下,對(duì)比3種視覺(jué)預(yù)處理網(wǎng)絡(luò)在雙聲道音頻生成任務(wù)中的表現(xiàn),所有的視覺(jué)預(yù)訓(xùn)練均使用ImageNet[19]預(yù)訓(xùn)練的權(quán)重進(jìn)行初始化,并在實(shí)際訓(xùn)練過(guò)程中進(jìn)行微調(diào)與遷移。實(shí)驗(yàn)中選用的ResNet為ResNet-18,DenseNet為DenseNet-121。實(shí)驗(yàn)表明,在使用預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行視覺(jué)分析時(shí),ResNet的效果最好。在3種模型中,ResNet的參數(shù)數(shù)量相較于GoogleNet少,因此訓(xùn)練速度上要快于GoogleNet。而DenseNet的參數(shù)數(shù)量為3個(gè)網(wǎng)絡(luò)中最少,模型的體積也最小,但是由于其網(wǎng)絡(luò)結(jié)構(gòu)存在更多的跨層網(wǎng)絡(luò)連接,模型的運(yùn)算量較ResNet要大,導(dǎo)致訓(xùn)練時(shí)長(zhǎng)反而更長(zhǎng)。因此,本文采用ResNet 作為雙聲道音頻生成模型的視覺(jué)基礎(chǔ)網(wǎng)絡(luò)。

        表2 視覺(jué)分析模型的消融實(shí)驗(yàn)

        最后,為了更直觀地呈現(xiàn)視覺(jué)特征在雙聲道音頻生成任務(wù)中的作用[20, 21],實(shí)驗(yàn)中以熱力圖的形式展示視頻畫面中對(duì)雙聲道音頻生成貢獻(xiàn)最大的圖像部分,將視覺(jué)分析網(wǎng)絡(luò)的效果進(jìn)行可視化呈現(xiàn)。實(shí)驗(yàn)設(shè)計(jì)了一個(gè)4×4像素大小的窗口,窗口會(huì)滑動(dòng)覆蓋整個(gè)畫面,窗口內(nèi)的畫面內(nèi)容會(huì)以畫面均值替代,相當(dāng)于將該部分畫面移除。計(jì)算當(dāng)畫面部分被移除時(shí),模型得到結(jié)果損失的變化,若畫面部分移除造成損失大幅上升,則表明該部分的畫面對(duì)于視覺(jué)分析有著較大的貢獻(xiàn)。將畫面區(qū)域與對(duì)預(yù)測(cè)損失之間的影響關(guān)系,轉(zhuǎn)換為相應(yīng)的熱力圖,對(duì)于視覺(jué)分析有較大貢獻(xiàn)的區(qū)域則會(huì)在熱力圖中以紅色標(biāo)識(shí),對(duì)視覺(jué)分析貢獻(xiàn)較小的區(qū)域則會(huì)以藍(lán)色標(biāo)識(shí)。

        圖6的示例中,第一行為原始輸入圖像;第二行為視覺(jué)分析熱力圖與原始圖像的重合,熱力圖顏色越接近紅色則表明該區(qū)域?yàn)橐曈X(jué)分析網(wǎng)絡(luò)所關(guān)注的位置;第三行使用白色選框標(biāo)記出圖像中真實(shí)的音源位置,如樂(lè)器的演奏者。根據(jù)圖6中呈現(xiàn)的結(jié)果,視覺(jué)分析模型在對(duì)視頻畫面進(jìn)行分析時(shí)所關(guān)注的畫面區(qū)域,基本上與畫面中真實(shí)的音源位置重合。這表明視覺(jué)分析網(wǎng)絡(luò)在進(jìn)行雙聲道音頻生成任務(wù)時(shí),能夠較為準(zhǔn)確地定位畫面中重要的視覺(jué)元素,大致確定畫面中的音源位置,輔助對(duì)音頻的分離與重組工作。

        圖6 視覺(jué)分析效果的可視化示例

        7 結(jié) 論

        雙聲道音頻生成任務(wù)涉及圖像處理以及音頻處理等多個(gè)領(lǐng)域的熱點(diǎn)研究問(wèn)題。本文提出了一種為單聲道視頻生成對(duì)應(yīng)雙聲道音頻的端到端模型Audio-Visual U-Net,其通過(guò)對(duì)音頻視頻的融合特征分析,在傳統(tǒng)U-Net的基礎(chǔ)上,將視覺(jué)信息也以多尺度的形式融合至音頻特征中,實(shí)現(xiàn)了對(duì)視覺(jué)特征的高效利用。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的模型結(jié)構(gòu),在雙聲道音頻生成的性能優(yōu)于現(xiàn)有模型,在STFT距離以及ENV距離兩項(xiàng)指標(biāo)上均取得了提升。

        猜你喜歡
        特征分析模型
        一半模型
        隱蔽失效適航要求符合性驗(yàn)證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        抓住特征巧觀察
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        3D打印中的模型分割與打包
        欧美色图50p| 欧美成人猛交69| 欧美成人片一区二区三区| 婷婷丁香91| 亚洲中文字幕高清视频| 亚洲精品视频中文字幕| 成人毛片av免费| 91精品福利一区二区| 日本午夜理伦三级好看| 亚洲中文av中文字幕艳妇| 国自产精品手机在线观看视频| 国产羞羞视频在线观看| 综合久久青青草免费观看视频| 精品久久久少妇一区二区| 久久亚洲私人国产精品va| 成人久久免费视频| 成人短篇在线视频夫妻刺激自拍| 免费国产在线视频自拍白浆| 99在线精品免费视频九九视| 百合av一区二区三区| 我也色自拍俺也色自拍| 2018天天躁夜夜躁狠狠躁| 国产成人综合在线视频| 妺妺窝人体色www婷婷| 999国内精品永久免费视频| 久久久久亚洲AV片无码乐播| av毛片亚洲高清一区二区| 挺进邻居丰满少妇的身体| 豆国产95在线 | 亚洲| 亚洲综合原千岁中文字幕| 亚洲综合日韩精品一区二区| 天天天天躁天天爱天天碰| 人妻无码AⅤ不卡中文字幕| 深夜日韩在线观看视频| 国产尤物精品视频| 亚洲福利视频一区| 国产一区亚洲一区二区| 亚洲人成人无码www| 亚洲中文字幕无码专区| 搡老女人老妇女老熟妇69| 91在线视频在线视频|