亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        背景音樂自動分離系統(tǒng)設(shè)計與實現(xiàn)

        2017-04-01 00:16:06陳潔
        現(xiàn)代電子技術(shù) 2017年5期

        陳潔

        摘 要: 為了解決廣播中背景音樂的提取、分離和魯棒識別,考慮到廣播語音中背景音樂的類型穩(wěn)定性和說話人的不確定性,提出一種說話人無關(guān)背景音樂類型相關(guān)的語音和背景音樂分離算法,為了更好地分離音樂背景與語音信號,設(shè)計并實現(xiàn)了一個級聯(lián)系統(tǒng),即音樂背景下的語音活動檢測系統(tǒng)加語音和背景音樂分離系統(tǒng)。針對實際的廣播語料,采用一種全監(jiān)督的方法提取背景音樂,實驗數(shù)據(jù)表明,該系統(tǒng)在一定程度上能夠提升背景音樂和語音的識別率。

        關(guān)鍵詞: 音頻信號分離; 魯棒語音識別; 非負矩陣分解; 語音活動檢測

        中圖分類號: TN911.7?34, TM417 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)05?0134?05

        Abstract: To solve the problems of background music extraction, seperation and robust recognition on the radio, a voice and background music seperation algorithm independent of speaker and relevant with background music types is proposed accor?ding to the types stability of the background music and speakers′ uncertainty in broadcast voice. In order to better seperate the background music and voice signal, a cascade system was designed and implemented, which combines the voice activity detection system with speech and background music separation system in the music background. Aiming at the practical broadcast corpus, a method with entire supervision is used to extract the music background. The experimental data show this system can improve the recognition ratio of background music and speech to a certain extent.

        Keywords: audio signal separation; robust speech recognition; non?negative matrix factorization; voice activity detection

        隨著科技的發(fā)展,背景音樂被應(yīng)用到越來越多的場景當(dāng)中,人們希望背景音樂識別可以在任何復(fù)雜場景中都可以發(fā)揮作用,所以如何消除背景音樂以外的干擾對背景音樂識別系統(tǒng)的影響就成了一個很重要的課題[1]?;诖?,本文要實現(xiàn)的目標(biāo)即為去除廣播語料中的語音信號,減小其對背景音樂識別系統(tǒng)的影響。

        1 基于非負矩陣分解的語音和背景音樂分離系統(tǒng)

        1.1 音樂類型相關(guān)說話人無關(guān)的語音和背景音樂分離系統(tǒng)

        根據(jù)處理的背景音樂所具有的特點,給出了一種基于NMF的音樂類型相關(guān)說話人無關(guān)的語音和背景音樂分離系統(tǒng),即本系統(tǒng)是一個半監(jiān)督算法[2]。該系統(tǒng)的創(chuàng)新點在于,相對于已有的語音和背景音樂分離算法,本算法不僅考慮了語音的稀疏處理,也考慮了背景音樂的暫時連續(xù)性。該系統(tǒng)的結(jié)構(gòu)框圖如圖1所示。

        訓(xùn)練階段,使用相應(yīng)音樂類型的純凈信號訓(xùn)練得到音樂的基本矢量[Wm。]在分離階段,首先通過STFT得到混合信號的幅度譜[V,]即得到了用于NMF的待分解矩陣[3]。為了更好地利用已有的先驗信息從而得到更好的分離效果,本系統(tǒng)考慮了語音的稀疏性和背景音樂的暫時連續(xù)性,并把它們作為先驗信息加入到NMF的分解過程中。分解之后得到了語音的基本矢量和其相對應(yīng)的權(quán)重矩陣[Ws]和[Hs,]音樂基本矢量對應(yīng)的權(quán)重矩陣[Hm,]通過圖1中的式子即可得到估計語音的幅度譜,進而得到其時域信號。

        1.2 基于非負矩陣分解的背景音樂類型建模

        考慮到所用的訓(xùn)練數(shù)據(jù)較多(一類音樂),為了使訓(xùn)練過程更有效率,本算法使用基于樣本的訓(xùn)練方法。具體實施過程如下:

        (1) 對長度為30 s的每一段訓(xùn)練數(shù)據(jù)(沒有靜音部分,全部為音樂)分別做STFT得到每一段的幅度譜。

        (2) 將每一段的幅度譜放在一起構(gòu)成一個很大的矩陣,作為訓(xùn)練結(jié)果保存起來。

        (3) 在確定了NMF的秩,語音和音樂基本矢量的個數(shù)之后,隨機的從訓(xùn)練結(jié)果的矩陣中選取和音樂基本矢量相同個數(shù)的不同幀的幅度譜,組成音樂的基本矢量。雖然隨機選擇可能會給分離性能也帶來一定的隨機性,但幅度譜仍然可以保留該流派音樂的一些特征。

        1.3 語音的稀疏性和背景音樂的暫時連續(xù)性

        式中[?]為[α]的0范式。在實際應(yīng)用中由于0范式的優(yōu)化問題是一個非凸問題,一般將0范式的優(yōu)化問題轉(zhuǎn)化為1范式或2范式,而2范式的優(yōu)化由于算法簡便更是經(jīng)常被采用,1范式的優(yōu)化問題則發(fā)展出了壓縮感知算法[4]。

        對于語音信號來說,大部分情況下也可以將其幅度譜做稀疏化[5]表示,即一幀信號的幅度譜[V]可以用式(2)的方法稀疏表示:

        在系統(tǒng)提出的算法中,語音的稀疏性是通過對語音的基本矩陣對應(yīng)的權(quán)重矩陣增加稀疏性來實現(xiàn)的,通過在優(yōu)化目標(biāo)函數(shù)中對稀疏性增加懲罰因子達到在優(yōu)化過程中保證語音權(quán)重矩陣的稀疏性[6]。

        本文提出的算法針對語音和音樂信號分離這一目的,稀疏性只加在了[Hs]上,具體實現(xiàn)方法如下:

        式中:[σi]為[Hs]第[i]行的標(biāo)準(zhǔn)差;[hi,j]是[Hs]第[i]行第[j]列的元素;[rs]為語音基本矢量的個數(shù),由于采用的是半監(jiān)督算法,所以該值是確定的。

        暫時連續(xù)性也是在處理音頻信號時經(jīng)常使用的一種先驗信息。一般來說,語音信號被認(rèn)為是準(zhǔn)穩(wěn)態(tài)的,在一段時間內(nèi)其頻譜特性被認(rèn)為是穩(wěn)定的,即在這段時間內(nèi)語音信號的各種特性是暫時連續(xù)的,這也是在語音信號處理中幀長一般取10~30 ms的原因[7]?;谝陨戏治?,本算法提出對音樂信號增加暫時連續(xù)性的限制,通過對NMF中音樂信號的權(quán)重矩陣相鄰兩列系數(shù)的變化增加懲罰因子以保證優(yōu)化結(jié)果中其相鄰兩列的系數(shù)變化比較小,具體實現(xiàn)方法如下:

        式中[rm]為音樂基本矢量的個數(shù),其值同樣也是確定的。

        在得到了語音的稀疏性限制的數(shù)學(xué)表示和音樂的暫時連續(xù)性限制的數(shù)學(xué)表示之后,提出算法的代價函數(shù)(cost function):

        式中:[λ]和[μ]分別是稀疏性和暫時連續(xù)性的強度,[λ]越大稀疏性的強度越大,即得到的[Hs]越稀疏;同理,[μ]越大暫時連續(xù)性的強度越大,即得到的[Hm]列與列之間的連續(xù)性越強?;诖舜鷥r函數(shù),根據(jù)乘法迭代規(guī)則,可以得到其相應(yīng)的迭代方法,經(jīng)過迭代最終可以得到[Ws,Hs,Hm,]進而得到分離后的時域信號。迭代終止以固定的迭代次數(shù)為條件。

        1.4 實驗結(jié)果及分析

        實驗評測主要包括兩部分:第一部分的目的是為了測試式(6)中不同的[λ]和[μ]值的組合帶來的性能變化,只對背景音樂是古典音樂的測試語料做了實驗,部分實驗結(jié)果如圖2所示。

        圖2中指出了[λ=1]和[μ=50]時的SDR,可以看出這個取值組合在不同的SMR下都給出了最好的結(jié)果。還可以看出,隨著[λ]的增加,分離效果并沒有明顯的提升,而且如果[λ]過大,分離效果甚至?xí)陆担喾?,隨著[μ]的增加,整體上來說性能是逐漸增加的。同稀疏性一樣,過強的暫時連續(xù)性限制也會帶來性能的下降,這個閾值在不同的SMR下是不同的,高SMR下閾值相對較高,低SMR下閾值則相對較低。

        總體來說,第一部分實驗證明了稀疏性和暫時連續(xù)性相對不加稀疏性和暫時連續(xù)性的性能提升是很明顯的,而且暫時連續(xù)性限制帶來的性能提升要高于稀疏性限制。稀疏性和暫時連續(xù)性限制都不是越強越好,而是有一個閾值,超過了閾值帶來的分離效果反而會下降,實驗結(jié)果顯示[λ=1]和[μ=50]在當(dāng)前的實驗設(shè)置下可以給出最好的結(jié)果。

        第二部分的實驗做了三組對比試驗。第一組是基線系統(tǒng),不考慮稀疏性和暫時連續(xù)性限制,第二組是對比系統(tǒng),只考慮稀疏性不考慮暫時連續(xù)性,這里[λ=1,][μ=0,]第三組是提出的算法,既考慮了稀疏性也考慮了暫時連續(xù)性,這里[λ=1,][μ=50。]基于分離效果的評測結(jié)果如表1,表2所示。其中的SIR為相對提高(即評測得到的結(jié)果減去測試語料的SMR),SDR和SAR為測試得到的實際值。從表1,表2中可以看出,在兩種背景音樂下暫時連續(xù)性的加入對系統(tǒng)性能的總體提升都非常明顯,從全局分離效果即SDR來看,加入暫時連續(xù)性之后SDR的值相對于基線系統(tǒng)和只加稀疏性的系統(tǒng)也有明顯的增加,而只加稀疏性的系統(tǒng)相比于基線系統(tǒng)則性能提升很小,這與第一部分實驗中得到的結(jié)果是一致的。

        綜上,本文提出的說話人無關(guān)背景音樂類型相關(guān)的語音和背景音樂分離系統(tǒng)相比傳統(tǒng)的只加稀疏性的語音和背景音樂分離系統(tǒng)性能提升非常明顯,可見對音樂信號施加暫時連續(xù)性可以有效地提升語音和背景音樂分離系統(tǒng)的表現(xiàn),從而證明本文算法可以更有效地利用待分離混合信號所提供的先驗信息。然而也可以看到,只固定特定音樂類型的基本矢量的半監(jiān)督算法基線系統(tǒng)表現(xiàn)并不好,在實際應(yīng)用時如果背景音樂的確定性很大,則可以訓(xùn)練得到更好的音樂基本矢量,從而得到更好的分離效果。

        1.5 針對廣播語料的語音和背景音樂分離系統(tǒng)

        經(jīng)過上述分析,可以得到用于廣播語料語音和背景音樂分離系統(tǒng)的基本框圖,如圖3所示。

        首先,從廣播語料中截取了男女兩個說話人的語料,其中男性說話人包括30條語料共約5 min,女性說話人包括60條語料共約10 min,但無從知道語音和背景音樂的信噪比,主觀感受來說男性說話人的30條語料的語音音樂信噪比普遍比女性說話人的60條語料低。

        需要得到每一條語料的幅度譜,求STFT時所用參數(shù)為:窗長64 ms,幀移16 ms,窗類型為漢明窗,本系統(tǒng)其他需要求STFT的地方的參數(shù)也是如此。之后,先從863語料庫中選擇10名說話人(5男5女),每名說話人有5條語料,共有50條語料約3 min,將這50條語料連接起來,求幅度譜并做NMF,NMF的秩設(shè)為60,即訓(xùn)練出60個語音基本矢量。同理,音樂基本矩陣的訓(xùn)練數(shù)據(jù)來自GTZAN流派數(shù)據(jù)庫的古典音樂,共5條約4 min,將這5條語料連接起來做NMF,NMF的秩同樣設(shè)為30,也保證了語音和音樂基本矢量個數(shù)比為2[∶]1,那么最終得到的音樂基本矢量個數(shù)為30。

        測試階段按照不同說話人測試,所用識別引擎在緒論中已有描述。首先測試了不進行增強時兩個說話人的語料各自的識別率,然后在增強之后,又分別測試了兩個說話人增強后的語料的識別率,實驗結(jié)果如表3所示。

        識別引擎對純凈的863測試語料正確率為55.99%,從表3中可以看出,本文所提出的的語音和背景音樂分離系統(tǒng)確實可以提高廣播語料的語音識別正確率,其中測試的男性說話人的識別率相對提升17.1%,女性說話人的識別率相對提升9.70%,但由于無從得知測試語料的真實信噪比,所以也不能比較不同信噪比下分離系統(tǒng)對識別引擎的貢獻,而且,最優(yōu)的稀疏性和暫時連續(xù)性限制的強度也和信噪比有關(guān)系[8],上述只給出了針對選擇的測試語料得出最好的限制強度,但是在實際使用中,還需要有相應(yīng)的信噪比估計模塊。

        2 基于語音活動檢測的語音和背景音樂分離系統(tǒng)

        2.1 系統(tǒng)概述

        為了得到更好的分離結(jié)果,本文采用全監(jiān)督算法,先利用訓(xùn)練語料訓(xùn)練出說話人無關(guān)的語音基本矩陣,再利用VAD的結(jié)果得到背景音樂的基本矩陣,同時仍然對語音部分的權(quán)重矩陣加入稀疏性限制,對音樂部分的權(quán)重矩陣加入暫時連續(xù)性限制,進而得到分離結(jié)果。系統(tǒng)的基本框圖如圖4所示。

        實際當(dāng)中面臨的一大問題是VAD的結(jié)果不能保證完全正確,這時會有一部分語音幀被誤判別為音樂幀,并用來訓(xùn)練音樂的基本矩陣,從而導(dǎo)致訓(xùn)練得到的音樂基本矩陣出現(xiàn)較大偏差?;贜MF的音頻信號分離系統(tǒng)對基本矢量比較敏感,即如果音樂的基本矩陣中出現(xiàn)相對較多的語音基本矢量,也會對分離結(jié)果產(chǎn)生較大的負面影響。為盡可能減少這一問題帶來的影響,系統(tǒng)可做如下改進,在使用VAD時閾值應(yīng)設(shè)置得當(dāng),使TPR盡可能的高,這樣就會有較少的語音幀被錯誤的判別為音樂幀,盡管此時會有更多的音樂幀被判別為語音幀,但此代價要小于語音幀誤判為音樂幀。

        對于本文處理的廣播語料,說話人不僅語速較快,而且很少有較長的停頓,且語音音樂信噪比不是很低,VAD系統(tǒng)可以給出不錯的正確率,所以本文在使用VAD結(jié)果訓(xùn)練背景音樂基本矢量時只做了第一點改進,調(diào)整閾值使TPR盡可能的高,同時又有足夠的音樂幀用于訓(xùn)練音樂的基本矢量。

        2.2 實驗結(jié)果及分析

        實驗階段訓(xùn)練語音基本矢量所用的語料為純凈TIMIT數(shù)據(jù)庫訓(xùn)練部分隨機選擇的100條語料,保證了說話人無關(guān)的特性。訓(xùn)練時所用的參數(shù)如下:求STFT時窗長為64 ms,幀移為16 ms,窗類型為漢明窗,NMF的秩為40,迭代次數(shù)為200,最終訓(xùn)練得到的語音基本矢量個數(shù)為40。

        測試部分所用的語料庫為第2.1節(jié)用于VAD結(jié)果評測的背景噪聲是音樂的TIMIT數(shù)據(jù)庫,所用語料為TIMIT測試部分的前10個說話人(4女6男)共200條約15 min的語料。分別測試了兩種VAD算法下系統(tǒng)的性能表現(xiàn),兩種VAD算法的參數(shù)和第2.1節(jié)評測VAD算法時所用的參數(shù)一樣。VAD的閾值設(shè)置標(biāo)準(zhǔn)是保證TPR不低于90%,閾值設(shè)置時參考了VAD的評測結(jié)果,然而在實際應(yīng)用時是沒有實驗結(jié)果可以參考的,但可以根據(jù)所處理語料的信噪比適當(dāng)調(diào)整閾值以達到最優(yōu)的效果。

        為了平衡TIMIT數(shù)據(jù)庫中語音段和靜音段的比例,人為在每一條語料開頭和結(jié)尾增加了0.5 s的靜音段,這導(dǎo)致帶噪TIMIT數(shù)據(jù)庫每一條語料的噪聲段也有所增加,這里在選擇音樂幀時仍然沒有只選擇持續(xù)的音樂幀,而是把VAD判決出的音樂幀全部用來訓(xùn)練音樂的基本矢量,這主要是出于項目中遇到的實際廣播語料的考慮。得到VAD結(jié)果之后,對音樂幀做NMF,所用參數(shù)和訓(xùn)練語音基本矩陣相同,不同的是NMF的秩為20,即保證語音音樂基本矢量個數(shù)比為2[∶]1,這樣最終可以得到20個音樂基本矢量。

        實驗評測仍然使用基于分離效果的評測方法,工具包依然使用PEASStoolkit。對比實驗設(shè)置了不使用VAD的半監(jiān)督算法,即只用訓(xùn)練得到的語音基本矩陣做半監(jiān)督的語音和背景音樂分離,其所設(shè)置參數(shù)除了VAD部分和上述完全一樣。這里分別列出兩種VAD算法在語音音樂信噪比為5 dB,10 dB時的實驗結(jié)果,以柱狀圖的形式給出,如圖5所示。

        圖5中“semiNMF”為不使用VAD結(jié)果的半監(jiān)督算法,“CASA_VAD_NMF”所用的VAD算法為基于CASA的VAD算法,“VAD_NMF”所用的VAD算法為基于NMF的VAD算法。

        由柱狀圖可以看出,從SDR的角度來看,在5 dB的情況下基于VAD的算法都要好于“semiNMF”,但在10 dB的情況下結(jié)果是相反的,主要原因可能是在較高信噪比下,基于VAD的方法帶來了過多的失真。而從SIR角度來看,基于VAD的方法在各種信噪比下都要遠好于“semiNMF”,即音樂的去除程度很明顯。而從SAR角度來說,無一例外,基于VAD的方法都要遠小于“semiNMF”,這也證明了基于VAD的方法雖然更好的去除了音樂,但卻帶來了比較多的失真,但綜合來說,基于VAD的語音和背景音樂分離算法還是有效的,特別是在信噪比不高的情況下。

        3 結(jié) 論

        本文以從帶有背景音樂的廣播語料中提取背景音樂和抑制語音為目標(biāo),以基于NMF的語音和背景音樂分離為主要研究方向,提出了一種基于NMF的說話人無關(guān)背景音樂相關(guān)的語音音樂分離系統(tǒng),該系統(tǒng)不僅對語音增加了稀疏性限制,同時還對背景音樂增加了暫時連續(xù)性限制;為了更好地對背景音樂建模,提出了結(jié)合VAD和語音音樂分離系統(tǒng),從而得到更好的系統(tǒng)表現(xiàn)。

        參考文獻

        [1] 呂釗,吳小培,張超.魯棒語音識別技術(shù)綜述[J].安徽大學(xué)學(xué)報(自然科學(xué)版),2013,37(5):17?24.

        [2] 李智勇,王飛,朱強.基于模型化DSP快速設(shè)計的音頻信號采集系統(tǒng)[J].現(xiàn)代電子技術(shù),2015,38(21):11?13.

        [3] 張磊,劉繼芳,項學(xué)智.基于計算聽覺場景分析的混合語音分離[J].計算機工程,2010,36(14):24?25.

        [4] 張?zhí)祢U,徐昕,吳旺軍,等.多反復(fù)結(jié)構(gòu)模型的精確音樂分離方法[J].聲學(xué)學(xué)報,2016(1):135?142.

        [5] 周宏,潘亞濤,陳健.基于內(nèi)容的音頻描述[J].計算機工程,2001,27(10):140?143.

        [6] 禹琳琳.語音識別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013,36(13):43?45.

        [7] 郭偉,于鳳芹.基于改進時頻比的語音音樂信號分離[J].計算機工程,2015,41(3):287?291.

        [8] 孫愛中,劉冰,張琬珍,等.基于DSP的語音識別系統(tǒng)研究與實現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(9):76?78.

        日本黄色特级一区二区三区| 国产精品美女久久久久久久| 欧美亚洲国产人妖系列视| 国产成人精品一区二区日出白浆| 亚洲成人福利在线视频| 国产精品18久久久| av在线色| 大量老肥熟女老女人自拍| 熟女中文字幕一区二区三区 | 日本一区二区三区熟女俱乐部| 日本熟妇色xxxxx日本妇| 人妻精品无码一区二区三区| 乱人伦人妻中文字幕不卡| 午夜理论片日本中文在线| 精品国产精品国产偷麻豆| 国产亚洲婷婷香蕉久久精品| 亚洲情精品中文字幕有码在线| 日本免费一区二区三区在线播放| 国产精品亚洲综合色区| 91福利视频免费| av天堂手机一区在线| 亚洲码欧美码一区二区三区| 精品国产一区二区三区av 性色| 2020久久精品亚洲热综合一本| 96中文字幕一区二区| 亚洲乱亚洲乱妇无码麻豆| 亚洲另类国产综合第一| 日本人妻av在线观看| 日韩精品第一区二区三区| 亚洲日韩成人av无码网站| 亚洲韩国在线| 日本免费一区二区久久久| 久热re这里精品视频在线6| 久久精品国产夜色| 在线观看人成网站深夜免费| 久久久99精品免费视频| 国产一区二区三区影院| 亚洲av永久无码精品成人| 亚洲无人区乱码中文字幕能看| 精品久久久久久无码人妻热| 免费国产一级特黄aa大片在线|