亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于NMF的老電影音頻背景噪聲修復算法

2017-07-19 12:08:55張葉君楊衛(wèi)英

上海大學學報(自然科學版) 2017年3期

關(guān)鍵詞：老電影背景噪聲正弦

張葉君,楊衛(wèi)英

(上海大學上海電影學院,上海 200072)

基于NMF的老電影音頻背景噪聲修復算法

張葉君,楊衛(wèi)英

(上海大學上海電影學院,上海 200072)

老電影音頻資料經(jīng)過長時間的存儲會出現(xiàn)音頻純度低、存在噪聲等問題.利用非負矩陣分解(non-negative matrix factorization,NMF)算法對單聲道音頻中的背景噪聲進行自動、快速檢測和分離以去噪.對非噪聲和噪聲信號分別建立相應(yīng)的模型,即前者使用正弦模型;后者的模型通過對老電影中先驗噪聲信號進行訓練得到,然后使用一種條件受限的NMF算法對音頻中的背景噪聲進行分離.實驗結(jié)果表明,該算法在去噪效果上要優(yōu)于直接濾波等去噪算法.

非負矩陣分解;音頻去噪;盲源分離;噪聲模型訓練

“老電影”主要指影像制作過程中使用傳統(tǒng)的光化學或物理處理技術(shù),以膠片為存儲介質(zhì)的電影,這些電影主要在20世紀進行制作和發(fā)行.由于膠片本身的特性,經(jīng)過長年累月的存放,會出現(xiàn)不同程度的磨損、老化,使得老電影出現(xiàn)音頻內(nèi)容的缺失、音頻中存在噪聲、純度低等問題[1].另外,早期錄音技術(shù)、設(shè)備、環(huán)境等條件限制還導致了音質(zhì)低劣問題.這些老電影顯然無法滿足現(xiàn)代影迷的觀感,為了能讓它們重返熒屏,膠片老電影的保存和修復也成為業(yè)界亟待解決的問題.

對于老電影音頻噪聲的修復,國際上沒有通用的系統(tǒng)方法.絕大多數(shù)的修復流程是先利用膠轉(zhuǎn)磁、磁片還音車等設(shè)備將膠片聲音進行數(shù)字化處理和存儲,然后導入音頻工作站中進行人工修復[2].目前已有一些專業(yè)的商用軟件和插件能提供音頻的去噪、增強等功能,如iZotope系列、Sonnox系列,它們的核心去噪算法主要基于減譜法[3]、直接濾波(如卡爾曼濾波)[4]等方法.這些方法在檢測噪聲位置及設(shè)置參數(shù)時,還需要依靠人工作業(yè),會耗費大量的人力、金錢和時間,另外業(yè)內(nèi)還缺乏技術(shù)熟練的修復人員,不能滿足海量的影像修復需求.

為了能自動、快速地檢測和修復老電影中的音頻噪聲,本工作采用以下思路：音頻噪聲的修復也可理解為從聲音信號中分離出噪聲信號,因而可將此問題視為盲源分離情況[5].將輸入信號看作非噪聲信號和噪聲信號的合成,然后利用技術(shù)手段對這兩種信號進行分離,即可達到去噪的目的.

非負矩陣分解(non-negative matrix factorization,NMF)[6]是近年來在數(shù)據(jù)分析、圖像處理、盲源分離、語音增強[7-9]等領(lǐng)域興起的技術(shù).NMF先將數(shù)據(jù)看成大矩陣,將其分解成兩個維度較小的矩陣,其中分解得到的矩陣能保留事物的特征,甚至可發(fā)現(xiàn)隱藏的特征成分.另外,如果能用模型表述數(shù)據(jù)中的不同特征,那么還可以利用NMF對這些特征進行提取和分類.雖然NMF在聲音修復方面尚無具體的應(yīng)用,但已廣泛用于音頻的相關(guān)研究[10-12],特別是在非穩(wěn)態(tài)噪聲環(huán)境下的語音增強領(lǐng)域.已有研究工作表明,要將NMF運用于特定的環(huán)境中,關(guān)鍵是需要根據(jù)待處理數(shù)據(jù)的類型構(gòu)建合適的模型,模型可以是數(shù)學公式,也可以是通過樣本訓練獲取的模型.

本工作在NMF算法的基礎(chǔ)上加以擴充,提出如圖1所示的老電影音頻噪聲修復流程,主要有以下兩方面的創(chuàng)新.

圖1 基于NMF的老電影音頻背景噪聲修復流程Fig.1 Flow chart of NMF-based historical film audio background noise reduction

(1)提出將NMF應(yīng)用到電影原音的噪聲修復中.已有噪聲修復研究使用的原始樣本是由不含噪聲的純音頻信號通過人工加噪得到帶噪信號,再利用NMF進行去噪.而本工作待處理的原始樣本是老電影中的音頻,本身便帶有噪聲.

(2)對老電影音頻中的非噪聲和噪聲信號構(gòu)建不同的信號模型加以區(qū)分.前者采用正弦模型,后者通過先驗噪聲樣本訓練得到,然后使用一種條件受限的NMF(constrained non-negative matrix factorization,CNMF)算法分離出其中的噪聲.

1 NMF算法

NMF是將一個非負矩陣V分解為兩個維度更低的非負矩陣W和H,即V≈WH,其v為列向量.同理,W和H也可以分別用列向量w和h來表達,分解公式可以寫成等于W的每一列乘上hj中對應(yīng)元素后的總和.一般將W稱為基矩陣或特征矩陣,將H稱為系數(shù)矩陣或增益矩陣.NMF算法試圖將高維數(shù)據(jù)壓縮成低維數(shù)據(jù),并保留原始數(shù)據(jù)的特征,亦可以抽取其中隱藏的局部特征.不過,構(gòu)造出良好的基矩陣W是關(guān)鍵.

在NMF算法[13]中,首先隨機初始化W和H.為了保證分解前后數(shù)據(jù)的完整性,要使W和H的乘積盡可能接近V.通過設(shè)置迭代公式,對W和H進行迭代更新,同時還需要選取代價函數(shù)來測量V和WH的相似度,當代價函數(shù)小于某個閾值時,停止迭代,輸出更新后的W和H.一般代價函數(shù)選擇KL散度(Kullback-Leibler divergence)來測量二者的相似度：

為了不斷減小D(V∥WH)的值,可對初始的W和H利用以下乘性更新法則進行迭代直至收斂：

式中,Hadamard積⊙和除運算定義為兩個矩陣對應(yīng)元素的乘和除,1為元素全為1的矩陣.不過NMF算法只解決了如何對W和H進行迭代更新,使得WH能不斷逼近V,并未涉及如何提取具有不同特征的局部數(shù)據(jù).

一般電影聲音中的非噪聲大致可以分為對白、背景音樂和音效三部分.對白,即人物間的對話,可視為語音信號;背景音樂主要是通過不同音色的樂器演奏得到;至于音效,其種類五花八門,如碰撞聲、擬聲、摩擦聲等.這些聲音雖然發(fā)聲方式不同,但均可看成是由一系列的正弦分量疊加得到.

而聲音中存在的噪聲大多不能轉(zhuǎn)換成穩(wěn)定的振動,或者是在自然界中不能表示為正弦形式的能量成分.因而可將聲音信號x(t)看作非噪聲信號s(t)和噪聲信號n(t)疊加的模型[14]：

為了能將NMF算法用于老電影音頻中非噪聲和噪聲信號的分離(見圖2),需要分別對非噪聲和噪聲構(gòu)造不同的模型.

圖2 NMF分離非噪聲矩陣Ws,Hs和噪聲矩陣Wn,Hn示意圖Fig.2 Diagram of separating harmonic matrix Ws,Hsfrom noise matrix Wn,Hnusing NMF

2 將NMF算法用于音頻噪聲修復

2.1 老電影聲音信號基矩陣模型

2.1.1 非噪聲信號的正弦模型

非噪聲信號s(t)在時間域上可以近似表示為任意不同幅度、頻率和相位的正弦信號之和[15]：

式中,p表示第p個正弦分量(p級諧波),ap,fp,?p分別表示幅度、頻率和相位.

利用上述正弦模型構(gòu)建矩陣Ws∈,如圖3所示.矩陣的第p列代表第p個正弦分量,矩陣的維度N則代表各個正弦分量對應(yīng)的幅值,即列向量中的元素為每個正弦分量對應(yīng)的N個采樣點的幅值.經(jīng)過短時傅里葉變換(short-time Fourier transform,STFT)取絕對值后,可得非噪聲基矩陣

圖3 非噪聲和噪聲基矩陣模型的構(gòu)建Fig.3 Modeling of harmonic and noise basis matrix

2.1.2 噪聲信號模型的訓練

老電影音頻中的噪聲主要由膠片的臟點、劃痕、顆粒等問題引起,若按持續(xù)時長來分,可將這些噪聲分為短時噪聲和背景噪聲;若按噪聲內(nèi)容來分,可分為咔噠聲、爆破聲、嗡嗡聲等.這些噪聲大部分可視為白噪聲和其他類型的隨機噪聲,并且服從一定的統(tǒng)計分布規(guī)律.對于隨機信號,比起直接建立模型,利用先驗的噪聲樣本進行訓練效果會更好.要完整地得到老電影音頻噪聲的先驗特征,需要建立噪聲訓練庫,獲取老電影中各類噪聲的樣本,然后利用NMF算法進行訓練得到對應(yīng)類型噪聲的基矩陣.但現(xiàn)有的老電影樣本中很少有純噪聲的音頻片段,特別是對于一些短時噪聲,往往伴隨著對白或者音樂一起出現(xiàn).因此本工作中噪聲訓練的對象暫且只考慮背景噪聲這一類.

在影像的某些時間段,會存在沒有對白、音樂,而只有背景噪聲的情況.提取出這段時間的聲音,每個樣本大約3～5 s,作為純噪聲信號n(t)進行訓練：首先,進行STFT,取絕對值后的幅度譜作為NMF的輸入矩陣接下來,利用傳統(tǒng)的NMF算法對進行處理,得到純噪聲的基矩陣

2.2 受限的聲音信號基矩陣模型

不同的數(shù)據(jù)類型,如文本、圖像、音視頻等,具有不同的表達特征.若在構(gòu)建信號模型時直接使用NMF算法,去噪時會濾掉一些非噪聲成分.為了能夠有效利用NMF算法對這些數(shù)據(jù)進行處理,需要根據(jù)數(shù)據(jù)的特點和處理的目的對NMF算法進行優(yōu)化.Wang等[16]對改進、優(yōu)化的NMF算法進行了歸類,將其分為受限NMF、結(jié)構(gòu)化NMF和廣義NMF等.為了能更好地區(qū)分非噪聲和噪聲信號,本工作基于文獻[17]的方法思路,通過構(gòu)建受限的非噪聲和噪聲基矩陣(見圖4),用于老電影音頻噪聲的修復.

圖4 非噪聲和噪聲受限基矩陣的模型構(gòu)建Fig.4 Modelling of harmonic and noise constrained basis matrix

2.2.1 CNMF中非噪聲基矩陣的構(gòu)建

假設(shè)CNMF中受限的非噪聲基矩陣Ws有L列,其中包含f個基頻,每個基頻有n列,那么L=fn.接下來對Ws中的原子進行構(gòu)建,將2.1節(jié)中的非噪聲基矩陣乘上三角脈沖信號向量es∈得到非噪聲原子即受限的基矩陣Ws可以看成是原基矩陣與脈沖信號的線性組合.那么非噪聲受限基矩陣Ws∈可以表示為

2.2.2 CNMF中噪聲基矩陣的構(gòu)建

假設(shè)CNMF中受限的噪聲基矩陣Wn有K列,將2.1節(jié)中的噪聲基矩陣乘上一個隨機系數(shù)向量en∈,得到噪聲原子∈.那么噪聲受限基矩陣Wn∈可以表示為

2.3 基于CNMF的噪聲分離

將構(gòu)建好的受限基矩陣Ws和Wn組合為混合基矩陣的原子w可以表示為

利用式(8)初始化W,并隨機初始化H(見圖5).利用代價函數(shù)(9)度量相似度,利用式(10)和(11)分別對H和W進行迭代更新.

圖5 CNMF中W和H的初始化Fig.5 Initialization of W and H matrix in CNMF

3 去噪實驗

實驗中待修復的老電影音頻樣本從上海電影技術(shù)廠獲得.音頻格式為WAV,采樣頻率為44.1 kHz,單聲道.實驗平臺為Matlab R2016a.選取一些長10 s左右的音頻片段,音頻的主要內(nèi)容為非噪聲部分(包括樂器音效、人物間的對白、音樂等)、局部的顆粒聲以及始終存在的背景嗡嗡聲.然后,分別用本工作提出的算法和人工去噪插件進行噪聲修復,并利用波形幅度分布分析信噪比(waveform amplitude distribution analysis signal-to-noise ratio, WADA-SNR)[18]作為客觀評價指標進行對比分析.選取iZotope RX2和Sonnox Oxford這兩款影視行業(yè)常用的噪聲修復插件,其核心去噪算法分別基于減譜法和直接濾波法.

3.1 基于CNMF的去噪實驗過程

步驟1選取一段帶噪聲的音頻信號x(t),經(jīng)過STFT取絕對值后獲取幅度譜V∈在STFT過程中,幀長(漢寧窗長)為1 024個樣本,幀移為25%的幀長.

步驟2利用CNMF算法分離噪聲.收斂后提取出非噪聲基矩陣和系數(shù)矩陣,相乘得到去噪的幅度譜Vs∈

CNMF算法中一些實驗參數(shù)的設(shè)置如下：純噪聲樣本訓練中,噪聲的基矩陣M取32,受限噪聲基矩陣的原子長度K取 32;構(gòu)建的受限非噪聲基矩陣模型的正弦分量P取30,基頻范圍為40～400 Hz,梯度為10 Hz,即非噪聲模型的基頻有40,50,…,400 Hz,每個基頻的原子長度n為8.

步驟3去噪后的幅度譜經(jīng)過維納濾波和逆短時傅里變換(inverse STFT,ISTFT),得到去噪信號s(t)及頻譜圖.在聽感上,令人厭煩的背景嗡嗡聲已去除.

3.2 實驗結(jié)果比較與分析

仍然采用上述音頻信號x(t),利用兩種去噪插件進行去噪,得到的去噪前后的頻譜圖如圖6所示.實驗結(jié)果表明,即使在專業(yè)人員的指導下最大限度地發(fā)揮去噪插件的功能,也只能濾掉一部分噪聲,在聽感上從頭到尾仍能感受到背景底噪聲.而采用本工作提出的CNMF算法,對老電影中的背景噪聲進行了較好的分離,修復效果要優(yōu)于去噪插件所使用的減譜法和直接濾波法.從頻譜圖也可看到,采用CNMF算法的噪聲能量得到了更為明顯的衰減.

圖6 不同算法修復結(jié)果頻譜對比Fig.6 Comparisons of spectrogram using different reduction algorithms

接下來,選取12段不同內(nèi)容的含噪音頻片段,每段時長10 s左右,其中4段只含有對白元素,4段只含有音樂元素,另外4段同時含有對白和音樂.然后,分別用上述3種去噪方法進行處理,并使用一種改進的信噪比度量方法WADA-SNR作為評價指標進行比較.WADA-SNR的值越大,則表明音頻質(zhì)量越高,最大值為100 dB,實驗結(jié)果如表1所示.實驗數(shù)據(jù)表明：利用CNMF算法修復后的音頻質(zhì)量更佳.

另外,去噪插件在分離噪聲的同時,也會濾掉少部分有用的非噪聲信號能量,尤其是減譜法,從頻譜圖中可以看到原始非噪聲的低頻成分遭到了破壞.在本工作提出的CNMF算法中若不對NMF算法增加限制條件,去噪時會將少部分的高頻非噪聲成分視為噪聲進行分離,導致音頻出現(xiàn)輕微的削波現(xiàn)象.而增加受限條件的CNMF算法則能夠在分離噪聲的同時,更好地保留非噪聲信號的成分.也就是說,對NMF算法進行優(yōu)化,可提高噪聲分離的準確性.

表1 不同噪聲修復方法WADA-SNR指標的對比Table 1 Comparisons of WADA-SNR using different noise restoration methodsdB

4 結(jié)束語

針對大量老電影音頻資料經(jīng)長期存放瀕臨損毀的問題,本工作提出一種基于NMF的算法對老電影音頻中存在的背景噪聲進行修復.主要貢獻有：①將NMF算法應(yīng)用于老電影原音的噪聲修復中;②分別構(gòu)建了非噪聲和噪聲信號模型,前者利用正弦模型,后者通過對先驗噪聲信號的訓練得到,再利用CNMF算法對老電影音頻中存在的背景噪聲進行分離.實驗結(jié)果表明：所提出算法在去噪效果上要優(yōu)于減譜法和直接濾波法.

雖然本工作提出的算法用在非噪聲成分較多,且在存在背景噪聲的情況下效果較好,而對于音頻中聲音要素少、噪聲多的片段,則修復效果一般.另外,由于噪聲訓練階段主要使用的是背景噪聲樣本,因而對于短時間內(nèi)突然出現(xiàn)的其他類型噪聲如咔噠聲,還不能很好地進行抑制.未來在信號模型的構(gòu)建、噪聲庫的訓練、NMF算法的優(yōu)化、修復效果的客觀評價指標等方面還有待進一步研究.

[1]Rumsey F.Challenges in archiving and restoration[J].Journal of the Audio Engineering Society, 2016,64(1)：94-97.

[2]Napieralska J.Concept of film sound restoration by adapting to contemporary cinema theatre[C]//138th Audio Engineering Society Convention.2015：1031-1039.

[3]Lukin A,Todd J.Suppression of musical noise artifacts in audio noise reduction by adaptive 2-D filtering[C]//123rd Audio Engineering Society Convention 123.Audio Engineering Society. 2007.

[4]Grancharov V,Samuelsson J,Kleijn B.On causal algorithms for speech enhancement[J]. IEEE Transactions on Audio Speech&Language Processing,2006,14(3)：764-773.

[5]Belouchrani A,Abed-Meraim K,Cardoso J F,et al.A blind source separation techinique based on second order statistics[J].IEEE Transactions on Signal Processing,1997,45(2)：434-444.

[6]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J]. Nature,1999,401(6755)：788-791.

[7]Gillis N.The why and how of nonnegative matrix factorization[J].Regularization,Optimization,Kernels,and Support Vector Machines,2014,12：257-291.

[8]Weninger F,Roux J L,Hershey J R,et al.Discriminative NMF and its application to single-channel source separation[C]//15th Annual Conference of the International Speech Communication Association.2014：865-869.

[9]Zhou J,Chen S,Duan Z.Rotational reset strategy for online semi-supervised NMF-based speech enhancement for long recordings[C]//Applications of Signal Processing to Audio and Acoustics.2015：1-5.

[10]F′evotte C,Bertin N,Durrieu J.Nonnegative matrix factorization with the Itakura-Saito divergence：with application to music analysis[J].Neural Computation,2009,21(3)：793-830.

[11]Wilson K W,Raj B,Smaragdis P,et al.Speech denoising using nonnegative matrix factorization with priors[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.2008：4029-4032.

[12]Papadopoulos P,Vaz C,Narayanan S S.Noise aware and combined noise models for speech denoising in unknown noise conditions[C]//17th Annual Conference of the International Speech Communication Association.2016：2866-2869.

[13]Lee D D.Algorithms for nonnegative matrix factorization[J].Advances in Neural Information Processing Systems,2001,13(6)：556-562.

[14]Serra X.Musical sound modeling with sinusoids plus noise[M].Amsterdam：Royal Swets& Zeitlinger,1997：91-122.

[15]McAulay R,Quatieri T.Speech analysis/synthesis based on a sinusoidal representation[J]. IEEE Transactions on Acoustics Speech&Signal Processing,1986,34(4)：744-754.

[16]Wang Y X,Zhang Y J.Nonnegative matrix factorization：a comprehensive review[J].IEEE Transactions on Knowledge&Data Engineering,2013,25(6)：1336-1353.

[17]Bertin N,Badeau R,Vincent E.Fast Bayesian NMF algorithms enforcing harmonicity and temporal continuity in polyphonic music transcription[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.2009：29-32.

[18]Kim C,Stern R M.Robust signal-to-noise ratio estimation based on waveform amplitude distribution analysis[C]//9th Annual Conference of the International Speech Communication Association.2008：2598-2601.

本文彩色版可登陸本刊網(wǎng)站查詢：http：//www.journal.shu.edu.cn

Reduction of background audio noise for historical films based on non-negative matrix factorization

ZHANG Yejun,YANG Weiying
(Shanghai Film Academy,Shanghai University,Shanghai 200072,China)

Audio materials of numerous historical films suffer from low sound quality,noise and other problems after being archived for a long time.This paper proposes a method based on non-negative matrix factorization(NMF)to automatically detect and separate background noise in a single channel audio.Harmonic signals and noises are modeled and differentiated using a sinusoid model and a priori noise training model respectively. Background noise is separated from the input audio with a constrained NMF algorithm. Experiments show that the proposed denoising algorithm outperforms the current algorithms in the denoise plug-in.

non-negative matrix factorization;audio denoising;blind source separation; noise model training

TN 912.3

1007-2861(2017)03-0333-09

10.12066/j.issn.1007-2861.1940

2017-05-02

國家自然科學基金資助項目(61571282)

楊衛(wèi)英(1957—),女,副教授,研究方向為數(shù)字媒體技術(shù)等.E-mail：yangweiying@staff.shu.edu.cn