何一鋒 戴藝寧 陳一凡
摘 要:目前部署的沉浸式音頻內(nèi)容的范式是基于音頻對象的,它是由一個(gè)聲軌和位置元數(shù)據(jù)組成的。 基于電影對象的作品通常由幾十個(gè)同時(shí)進(jìn)行的音頻對象組成,這給音頻對象的提取帶來了挑戰(zhàn)。我們通過構(gòu)建一種深度學(xué)習(xí)方法來提取對象,從基于對象的作品的多聲道渲染中學(xué)習(xí),而不是直接從音頻對象本身學(xué)習(xí)。這種方法可以解決對象的可擴(kuò)展性問題,也提供了以監(jiān)督或無監(jiān)督的方式來制定解決問題的可能性方案。
關(guān)鍵詞:音頻分離,深度學(xué)習(xí),監(jiān)督,無監(jiān)督
中圖法分類號TP389.1
1簡介
音軌和位置元數(shù)據(jù)組成的音頻對象在播放過程中被渲染成特定的聽覺布局(如5.1或立體聲),這比傳統(tǒng)的多聲道制作提供更高的靈活性、適應(yīng)性和沉浸性?;趯ο蟮囊纛l制作是由幾十個(gè)同時(shí)進(jìn)行的音頻對象組成。這種對象的可擴(kuò)展性問題也從模型優(yōu)化的角度帶來了挑戰(zhàn)。語音[7-9]和通用[3, 10]源分離文獻(xiàn)中描述的包絡(luò)模糊性問題也出現(xiàn)在這里。由于任務(wù)的來源(或說話人)獨(dú)立性質(zhì),監(jiān)督學(xué)習(xí)所需的輸出到基礎(chǔ)真理對不能被任意分配。 為了克服這些挑戰(zhàn),我們提出了一種基于多通道學(xué)習(xí)的方法:我們監(jiān)督學(xué)習(xí)的參照物不是物體,而是由這些物體呈現(xiàn)的多通道混合?;诙嗤ǖ赖膶W(xué)習(xí)的靈感來自于人類評估電影作品的方式,根
據(jù)這種方式,即使兩個(gè)混合中的物體數(shù)量可能不同,如果兩個(gè)基于物體的作品在多通道布局中的渲染也是相似的,那么它們就被認(rèn)為是相似的。我們提取少量的對象,通常是1-3個(gè),對應(yīng)于最突出的聽覺事件,以及一個(gè)多通道的剩余部分,稱為 "嵌入通道",包含沒有嵌入對象的音頻。因此,我們研究獨(dú)立于源的深度學(xué)習(xí)模型,除了嵌入通道外,還可以提取多達(dá)3個(gè)的對象。
2多渠道學(xué)習(xí)
我們設(shè)計(jì)并建立了一個(gè)神經(jīng)網(wǎng)絡(luò),給定一個(gè)多聲道摘錄,提取一個(gè)固定數(shù)量的音頻對象、位置元數(shù)據(jù)和一個(gè)多聲道提醒(嵌入通道)。為了簡化操作,我們假設(shè)5.1輸入--盡管我們的方法可以擴(kuò)展成任何多聲道輸入格式。如上所述,我們的訓(xùn)練目標(biāo)并不依賴于基于對象的監(jiān)督學(xué)習(xí)。相反,我們的訓(xùn)練目標(biāo)被設(shè)計(jì)為以有監(jiān)督或無監(jiān)督的方式從多通道渲染中學(xué)習(xí)(見圖1)。
· 監(jiān)督學(xué)習(xí)一個(gè)基于對象的參考組合需要渲染一組預(yù)先確定的多通道布局(例如,2.0、5.1、7.1、9.1)。 所獲得的渲染結(jié)果被用作重建損失的參考,該損失是在多聲道布局領(lǐng)域定義的。 這個(gè)損失是由每個(gè)多通道格式的重建損失的加權(quán)平均數(shù)組成的。 這種監(jiān)督下的配置需要一個(gè)基于對象的訓(xùn)練集,所有的參考多通道渲染都來自于此。
· 我們設(shè)計(jì)并建立了一個(gè)神經(jīng)網(wǎng)絡(luò),給定一個(gè)多聲道摘錄,提取一個(gè)固定數(shù)量的音頻對象、位置元數(shù)據(jù)和一個(gè)多聲道提醒(嵌入聲道)。因此,基于多渠道的學(xué)習(xí)是通過處理問題的結(jié)構(gòu)化方式實(shí)現(xiàn)的。我們通過模型的結(jié)構(gòu)和損失函數(shù)中的額外正則化項(xiàng)來執(zhí)行這種結(jié)構(gòu)。
·無監(jiān)督學(xué)習(xí)也可以用來適應(yīng)一個(gè)特定的多聲道摘錄。通過無監(jiān)督學(xué)習(xí)適應(yīng)特定的5.1混音,可以在不需要任何訓(xùn)練數(shù)據(jù)庫的情況下提取音頻對象。這種 "無監(jiān)督編碼 "的情況可以被看作是一個(gè)5.1到5.1的自動(dòng)編碼器,它覆蓋了一個(gè)特定的例子,其中模型的結(jié)構(gòu)和正則化損失項(xiàng)的指導(dǎo)使模型朝著提取潛在的有意義的音頻對象方向發(fā)展。
圖1. 基于多通道的音頻對象提取型。對于推理和訓(xùn)練,可學(xué)習(xí)的對象提取器(編碼器,見圖2)從輸入的5.1中提取對象和床位通道。對于訓(xùn)練,不可訓(xùn)練的可區(qū)分的渲染器將它們解碼為一些布局。對于無監(jiān)督訓(xùn)練,目標(biāo)函數(shù)只基于5.1的混合(藍(lán)框)。在有監(jiān)督的訓(xùn)練中,其他渲染器會(huì)被額外考慮(藍(lán)色和黃色方框)。
3建模
我們的模型由一個(gè)對象提取模塊(編碼器)和一個(gè)渲染器模塊(解碼器)組成--見圖1。編碼器(圖2)執(zhí)行音頻對象提取,并將5.1輸入轉(zhuǎn)換為基于對象的格式。 解碼器的對象是將提取的對象和嵌入通道渲染成多通道混合,以便進(jìn)行有監(jiān)督或無監(jiān)督的基于多通道的學(xué)習(xí)。
編碼器(圖2)由以下部分組成:(i)掩碼估計(jì)塊,一個(gè)可訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),用于估計(jì)對象和嵌入通道掩碼;(ii)其余對象提取塊,用于從估計(jì)的掩碼中提取音頻對象(包括位置元數(shù)據(jù))和嵌入通道。(iii)依賴于可微分的數(shù)字信號處理層來進(jìn)一步處理對象掩碼和床面通道掩碼,以重建對象和床面通道。去除器從5.1對象音頻中提取位置元數(shù)據(jù)。我們目前的實(shí)現(xiàn)是基于一個(gè)可區(qū)分的數(shù)字信號處理層;當(dāng)然,它也可以擴(kuò)展為一個(gè)可學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)。解碼器扭轉(zhuǎn)了優(yōu)化過程(在渲染過程中,對遠(yuǎn)離正面位置的對象降低了對象的電平)。 解碼器只是一個(gè)完全可區(qū)分的音頻對象渲染器,它將對象和嵌入通道渲染成特定的多通道布局。
在我們的實(shí)現(xiàn)中,整個(gè)模型是用Tensorflow編寫的,包括可訓(xùn)練和不可訓(xùn)練的數(shù)字信號處理模塊。脫模器和解削器也對應(yīng)于杜比全景聲渲染器。該模型對48kHz的5.44秒的音頻摘錄進(jìn)行操作,F(xiàn)FT窗口長度為2048個(gè)樣本,導(dǎo)致256個(gè)時(shí)間倉和1025個(gè)頻段的音頻補(bǔ)丁,它們被分組為128個(gè)mel bands。
圖2. 編碼器,它從5.1混音中提取物體和床位通道。如圖1所示,紅色方框表示模型的可學(xué)習(xí)部分,綠色方框表示不可學(xué)習(xí)的可區(qū)分的數(shù)字信號處理部分。
4訓(xùn)練目標(biāo)
我們依靠兩個(gè)主要的訓(xùn)練目標(biāo):重建損失,在多通道層面上匹配混合的內(nèi)容,以及規(guī)則化損失,鼓勵(lì)提取的對象表現(xiàn)得一致。
重建損失 - 這些損失來自于參考渲染/混合和解碼器的輸出之間的比較。正如在第2節(jié)和第3節(jié)中所討論的,在基于多通道的監(jiān)督學(xué)習(xí)中,我們比較了幾個(gè)參考渲染(2.0)和解碼器的輸出。在基于多通道的監(jiān)督學(xué)習(xí)中,我們將幾個(gè)參考渲染(2.0、5.1、7.1和9.1,由基于參考對象的制作渲染)與相應(yīng)的解碼器輸出進(jìn)行比較。
正則化損失--為了說明這些正則化術(shù)語的必要性,對于無監(jiān)督的情況,模型可以通過將所有內(nèi)容發(fā)送到嵌入通道來將重建損失最小化為零。有必要使模型偏向于與預(yù)期的基于對象的制作方式相對應(yīng)的解決方案。
5實(shí)驗(yàn)和評估
5.1實(shí)驗(yàn)方法
我們設(shè)計(jì)了一個(gè)實(shí)驗(yàn)。這項(xiàng)實(shí)驗(yàn)從5.1混音中提取1或3個(gè)對象和嵌入通道,這些對象是由可用于評估的已知對象呈現(xiàn)的。該實(shí)驗(yàn)是從包含1個(gè)對象和床鋪通道的5.1混音中提取對象?;煲糁械膶ο笫峭ㄟ^將偽隨機(jī)合成軌跡分配給電影混音中出現(xiàn)的不同聲音類別(車輛聲音、特殊效果、樂器、聲音、腳步聲等)的真實(shí)音軌來創(chuàng)建的,這些音軌從Freesound Datasets[20-22]中獲得。這些基于對象的節(jié)選還包含有真實(shí)的圓形錄音的嵌入通道。
5.2 實(shí)驗(yàn)結(jié)果
在單對象實(shí)驗(yàn)中,前牽引床通道的表現(xiàn)明顯優(yōu)于基線。然而,在三對象實(shí)驗(yàn)中,"無監(jiān)督? ? t "和 "精確調(diào)整 "的配置不如基線的表現(xiàn)。這個(gè)結(jié)果說明了"無監(jiān)督? ? ?t "和 "精確調(diào)整 "方法的優(yōu)勢和劣勢。雖然這些方法通過對一個(gè)特定的5.1節(jié)選實(shí)現(xiàn)了最好的對象提取結(jié)果,但我們引入的強(qiáng)烈的歸納偏見導(dǎo)致了積極的對象提取,這可能會(huì)影響到嵌入通道的質(zhì)量。這一點(diǎn)對于 "無監(jiān)督測定 "的影響尤其明顯,即從頭開始訓(xùn)練,在沒有額外訓(xùn)練數(shù)據(jù)的情況下,需要對一個(gè)給定的5.1進(jìn)行測定。
6結(jié)論
我們提出了一個(gè)獨(dú)立于源的方法,即依靠強(qiáng)大的誘導(dǎo)性偏差來學(xué)習(xí)多通道渲染。我們探索的歸納偏差是基于架構(gòu)約束(強(qiáng)制我們模型的瓶頸是一個(gè)特定的基于對象的格式),以及額外的正則化損失條款(強(qiáng)制對象按照基于對象的生產(chǎn)慣例行事)。 基于多渠道的學(xué)習(xí)可以以監(jiān)督或無監(jiān)督的方式進(jìn)行,并在分離音軌方面能達(dá)到較好的效果。
參考文獻(xiàn):
[1]? Berkan Kadioglu, Michael Horgan, Xiaoyu Liu, Jordi Pons, Dan Darcy, and Vivek Kumar, “An empirical study of Conv-TasNet,” in ICASSP, 2020.
[2]? Yi Luo and Nima Mesgarani, “Tasnet: time-domain audio sepa-? ration network for real-time, single-channel speech separation,” in ICASSP, 2018.
[3]? Yuzhou Liu and DeLiang Wang,? ?“Divide and conquer:? A deep CASA approach to talker-independent monaural speaker separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 2092–2102, 2019.
[4]? Ilya Kavalerov, Scott Wisdom, Hakan Erdogan, Brian Patton,Kevin Wilson, Jonathan Le Roux, and John R Hershey, “Univer- sal sound separation,” in 2019 IEEE Workshop on Applications? of Signal Processing to Audio and Acoustics (WASPAA), 2019.
[5]? Scott Wisdom, Efthymios Tzinis, Hakan Erdogan, Ron J Weiss,Kevin Wilson, and John R Hershey,? ?“Unsupervised sound separation using mixtures of mixtures,” in NeurIPS, 2020.
本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(s202111047008)基金支持. 何一鋒(2000-),男,江西景德鎮(zhèn)人,計(jì)算機(jī)科學(xué)與技術(shù)本科在讀