亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NMF與CNN聯(lián)合優(yōu)化的聲學場景分類

        2022-05-07 09:20:04楊皇衛(wèi)寧方立
        關(guān)鍵詞:分類特征優(yōu)化

        韋 娟, 楊皇衛(wèi), 寧方立

        (1. 西安電子科技大學通信工程學院, 陜西 西安 710071; 2. 西北工業(yè)大學機電學院, 陜西 西安 710072)

        0 引 言

        聲學場景分類(acoustic scene classification, ASC)旨在從不同音頻片段中識別出各自包含的場景信息并加以分類。相比利用圖像或視頻信息實現(xiàn)場景分類,ASC技術(shù)具有全向性,且不會受遮擋和光線條件的影響,在智能穿戴設(shè)備、物聯(lián)網(wǎng)音頻監(jiān)控、巡檢機器人等領(lǐng)域有著廣泛的應用前景[1-2]。

        實際聲學場景通常由多個聲學事件組成,但只有少數(shù)聲學事件能對場景分析起到關(guān)鍵作用,因此需要提取足夠有效的聲學特征。ASC任務中常用的對數(shù)梅爾譜(log Mel-spectrogram,LM)[3-4]和常數(shù)Q變換(constant Q transform,CQT)[5]可以對頻帶相對固定的音頻信號進行有效的時頻分析,但對于結(jié)構(gòu)性較差的聲學場景信號表現(xiàn)不佳[6]。于是,基于自動特征學習的非負矩陣分解(non-negative matrix factorization,NMF)[7-8]被應用于ASC任務。作為一種基于部分表達整體的方法,NMF能夠有效解決由各類聲學事件組成的場景分類問題。姚琨等人[9]將NMF與LM進行特征融合以提高識別率,但未考慮樣本標簽對特征提取的輔助作用。Lee等人[10]提出一種利用標簽信息對各類聲學場景獨立學習基矩陣的方法,但不同場景可能存在相似的聲學事件,易造成基向量的冗余和混淆。Bisot等人[11]提出基于邏輯回歸的任務驅(qū)動型NMF(task-driven NMF,TNMF)算法,通過分類器修正特征學習的方式有效提升場景分類效果,但因邏輯回歸分類器性能有限而難以得到更有判別性的特征。

        如何利用聲學特征訓練出有效的分類模型是ASC任務的另一個難點。隨著深度學習的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)[12]因為可以識別縮放、移位等空間失真不變性[13],在ASC任務中得到廣泛應用。Boddapati等人[14]通過疊加聲譜圖、梅爾倒譜系數(shù)以及相干復原圖組成三通道特征,結(jié)合圖像識別中兩種常用的CNN模型進行環(huán)境聲音分類。Doan等人[15]提出一種應用于耳蝸譜圖的深度CNN模型,通過加深卷積層個數(shù)學習更豐富的場景信息。曹毅等人[16]將馬爾可夫模型的思想應用于CNN,提出一種更適合音頻分類的N階密集CNN模型。雖然上述模型嘗試從不同角度獲取特征圖中的分類信息并取得一定的效果,但均基于一次性提取的無監(jiān)督特征圖,沒有考慮在后續(xù)模型訓練過程中對特征圖本身所包含的信息進行優(yōu)化。

        針對以上問題,提出一種NMF與CNN聯(lián)合優(yōu)化的有監(jiān)督特征學習算法。該算法利用基于NMF的特征表示訓練CNN模型,根據(jù)標簽信息和實際訓練效果不斷反向優(yōu)化NMF的過程,自適應地調(diào)整特征提取方向以獲得更利于分類的判別性特征。

        1 特征提取

        NMF在對原始時頻圖降維的同時能夠提取出聲學場景的更好表示[17]。一方面,對非負聲譜圖矩陣V進行NMF,可理解為聯(lián)合學習非負的基矩陣W與權(quán)值矩陣H,使得V≈WH[18-19]。其中,W的列向量代表特定的聲學事件,H的列向量對應當前時刻各聲學事件所占的比重。由于聲學場景是由不同聲學事件組成的復雜多源環(huán)境,因此判斷特定事件是否發(fā)生將有助于分辨不同的場景。另一方面,NMF算法可以與標簽信息結(jié)合,不斷修正特征提取過程,促使基矩陣W對環(huán)境中聲學事件的刻畫更加準確,從而增強NMF特征的表達能力。

        (1)

        式中:‖·‖F(xiàn)表示矩陣Frobenius范數(shù);λ表示L2正則化系數(shù),目的是防止基矩陣出現(xiàn)過擬合。

        通過NMF算法得到基矩陣W,再對每個樣本的聲譜圖v在W上利用帶有正約束的最小角回歸算法[20]進行投影,得到的權(quán)值矩陣h即為該樣本的NMF特征。

        進一步,令?f(W,h)/?h=0,有:

        h=(WTW+λI)-1WTv

        (2)

        對式(2)求微分,有:

        dh=-(WTW+λI)-1WTdWh+ (WTW+λI)-1(dW)T(v-Wh)

        (3)

        式(3)表達了權(quán)值矩陣h與基矩陣W的微分關(guān)系,利用該式以及樣本的標簽信息即可根據(jù)聯(lián)合優(yōu)化算法實現(xiàn)NMF特征的修正。

        2 聯(lián)合優(yōu)化算法

        NMF作為一種自動特征學習方法,能夠根據(jù)不同任務和數(shù)據(jù)集自動學習到有效特征。在加入標簽信息后,NMF可進一步調(diào)整特征提取方向,提高對特定任務的適應性。于是,在文獻[11]的基礎(chǔ)上提出一種聯(lián)合優(yōu)化算法,通過引入CNN模型實現(xiàn)NMF與神經(jīng)網(wǎng)絡的聯(lián)合訓練,提取同時包含生成信息和判別信息[21]的有監(jiān)督NMF(supervised NMF,SNMF)特征。

        令神經(jīng)網(wǎng)絡的損失函數(shù)為ls,有:

        (4)

        (5)

        利用梯度下降法實現(xiàn)基矩陣的修正:

        (6)

        式中:ΠW表示對基矩陣W進行L2范數(shù)標準化;ρ代表基矩陣的學習率。

        在修正后的基矩陣上進行投影,得到新的權(quán)值矩陣h即為SNMF特征。

        算法具體步驟如下。

        步驟 1將訓練集樣本的聲譜圖擴展后進行NMF,得到基矩陣W。

        步驟 2將訓練集樣本的聲譜圖在基矩陣W上進行投影,獲得的權(quán)值矩陣輸入已搭建的CNN模型中進行訓練。

        步驟 3從訓練集中隨機不重復選取一組樣本的聲譜圖,在基矩陣W上投影得到權(quán)值矩陣h,輸入已訓練CNN模型中獲取對應的一組損失值。

        步驟 4利用式(6)實現(xiàn)網(wǎng)絡損失值對基矩陣W的修正。

        步驟 5在修正后的基矩陣W基礎(chǔ)上重復步驟3~步驟4,完成整個訓練集樣本對基矩陣的修正。

        步驟 6在修正完畢的基矩陣W基礎(chǔ)上重復步驟2~步驟5,直到滿足預設(shè)條件后退出循環(huán)。

        聯(lián)合優(yōu)化算法的整體流程如圖1所示。

        3 網(wǎng)絡模型

        目前ASC任務主要采用CNN型深度神經(jīng)網(wǎng)絡對二維時頻特征進行分類[22-23]。通過NMF得到的二維特征同樣包含豐富的分類信息,可使用相似的網(wǎng)絡結(jié)構(gòu)[10]。在模型的搭建上,一方面,由于各時間片段里包含的聲學事件有所不同,為使模型充分學習到這些聲學事件的有效特征,應適當減少在時間軸上的池化。另一方面,網(wǎng)絡中的卷積層數(shù)目對識別效果也有一定影響[24]。數(shù)目過少可能導致網(wǎng)絡的擬合程度不高;數(shù)目過多則可能因梯度消失問題降低SNMF特征的修正效果。為得到適合SNMF特征的模型,并驗證網(wǎng)絡層數(shù)對分類效果的影響,在視覺幾何組網(wǎng)絡(visual geometry groupnet work, VGGNet)[25]和文獻[3]的基礎(chǔ)上分別搭建卷積層數(shù)目為8、10、12的CNN8、CNN10和CNN12模型進行實驗。

        模型結(jié)構(gòu)與參數(shù)如表1所示,其中@符號表示Conv2D卷積層。優(yōu)化器使用隨機梯度下降算法,批大小為16,模型的訓練與SNMF特征的修正交替進行。為避免因網(wǎng)絡收斂過快而導致修正幅度較小,選擇每訓練10輪模型修正1次SNMF特征。每10輪間模型的學習率按熱重啟學習率策略[3,26]從5×10-3以余弦下降方式衰減到5×10-5,使用交叉熵損失函數(shù)共訓練70輪[11]。

        表1 CNN模型結(jié)構(gòu)

        4 實驗與分析

        4.1 實驗數(shù)據(jù)與配置

        實驗所采用的數(shù)據(jù)集為TUT Acoustic Scenes 2017開發(fā)數(shù)據(jù)集[27]。該數(shù)據(jù)集的錄音時長總計13 h,包括沙灘、公交、咖啡館/飯館、汽車、市中心、林蔭道、雜貨店、家、圖書館、地鐵站、辦公室、公園、居民區(qū)、火車、電車在內(nèi)的15種聲學環(huán)境,每類音頻包含312個樣本,總共4 680個樣本。樣本均為采樣率44.1 kHz,精度24位,時長10 s的雙聲道音頻。將所有樣本降采樣到22.05 kHz,平均左右聲道數(shù)據(jù)以供后續(xù)使用。根據(jù)官方提供的四折交叉驗證方式進行數(shù)據(jù)集的劃分與實驗,使用準確率作為最終的評價指標。實驗硬件配置為Intel(R) Core(TM) i5-10400F CPU、16 GB內(nèi)存、Nvidia GeForce RTX 2060 GPU,軟件環(huán)境為Ubuntu18.04系統(tǒng),Python3.6.11、Tensorflow1.15.0、Keras2.3.1。

        4.2 參數(shù)設(shè)置

        NMF特征設(shè)置:幀長和幀移分別為1 024和512個采樣點,通過短時傅里葉變換得到512×431的對數(shù)聲譜圖。按文獻[11]的方法進行池化操作得到512×108的對數(shù)聲譜圖。擴展所有訓練樣本的聲譜圖后進行NMF得到512×K的基矩陣W,K為基向量數(shù)及特征維數(shù),該基矩陣同時用作SNMF特征的初始基矩陣。最后在W上重新投影得到K×108的NMF特征。

        SNMF特征設(shè)置:正則化系數(shù)λ設(shè)為2×10-2,學習率ρ取5×10-4。參數(shù)的選擇來源于組合實驗的結(jié)果。

        其他特征設(shè)置:為了對比分析,提取由聲譜圖通過256組梅爾濾波器后獲得的LM特征,尺寸為256×431;每8度取24個頻帶得到的CQT特征,尺寸為255×431。通過池化操作后得到256×108的LM特征與255×108的CQT特征。

        4.3 結(jié)果分析

        4.3.1 特征維數(shù)和模型層數(shù)對準確率的影響

        為說明不同特征維數(shù)對分類準確率的影響,令分類器為已搭建的CNN10模型,并分別令NMF中基向量的數(shù)目為64、128、256和512以提取4種不同維數(shù)的SNMF特征。如表2所示,為SNMF特征在四折交叉驗證下取不同特征維數(shù)時的準確率變化情況。

        表2 不同特征維數(shù)下的準確率

        由表2可知,K值取64、128和256時,四折數(shù)據(jù)劃分下的識別準確率均隨著特征維數(shù)的增加而提高。說明隨著基向量的增多,基矩陣對聲學場景中各聲學事件的學習更加充分,能夠從聲譜圖中學習到更細分的基事件,使提取的SNMF特征中包含更多的區(qū)分信息。但當K值大于256時,識別準確率發(fā)生一定下降,說明K值并非越大越好。因為,此時多余的基向量學習到的是噪聲和冗余信息,將對識別效果產(chǎn)生一定干擾。

        表3為K=256時SNMF特征在模型取不同層數(shù)時對識別準確率的影響。

        分析表3可知,模型的層數(shù)會對識別準確率產(chǎn)生較大影響。層數(shù)較低時,因為網(wǎng)絡欠擬合而導致分類效果不佳;而層數(shù)較高時則容易因網(wǎng)絡過深而產(chǎn)生梯度消失問題。由于聯(lián)合優(yōu)化算法的效果依賴于網(wǎng)絡損失值的梯度反向傳播,若出現(xiàn)梯度消失將會使SNMF特征的修正程度不高,從而降低聯(lián)合優(yōu)化算法的效果。

        4.3.2 不同特征之間的對比

        為驗證聯(lián)合優(yōu)化算法的實際效果,將SNMF特征與TUT2017數(shù)據(jù)集的官方基線系統(tǒng)[27]、無監(jiān)督NMF特征、以對數(shù)聲譜圖為基礎(chǔ)提取的TNMF特征[11]、CQT特征與LM特征進行對比。其中,NMF特征和SNMF特征的特征維數(shù)K=256。為保證所有特征能夠擁有適合其自身特點的分類器,令NMF與SNMF特征的分類器為CNN10模型,TNMF特征的分類器同文獻[11],而LM和CQT特征則選取在2020年聲學場景和事件的檢測與分類挑戰(zhàn)賽(Detection and Classification of Acoustic Scenes and Events,DCASE)中表現(xiàn)優(yōu)異的類VGGNet模型[28]。獲得的分類結(jié)果如表4所示。

        分析表4可知,與CNN結(jié)合的無監(jiān)督NMF特征和SNMF特征的識別準確率分別高出基線系統(tǒng)4.9%和8.8%,說明NMF與CNN結(jié)合是一種有效的識別方法。同時,即使未使用聯(lián)合優(yōu)化算法的NMF特征也要優(yōu)于使用邏輯回歸分類器的TNMF特征,說明分類器的性能對識別結(jié)果有著較大影響。另外,通過聯(lián)合優(yōu)化算法獲取的SNMF特征識別準確率達到83.6%,分別高出NMF特征3.9%、CQT特征3.1%和LM特征2.3%,說明聯(lián)合優(yōu)化算法有助于提取更優(yōu)的特征。原因是與CNN分類器相結(jié)合的有監(jiān)督特征學習方式能夠利用標簽信息和實際分類效果不斷調(diào)整NMF中基矩陣內(nèi)的參數(shù),提高基向量的表征能力,從而獲取更有判別性的特征。

        由表4還可知,在不同類別場景下的分類效果方面,SNMF特征在所有類別中準確率的最大值與最小值之間的差值最小,說明SNMF特征有更好的穩(wěn)定性。另外,無論哪一種特征,在汽車、市中心、辦公室、電車等類別的分類上均表現(xiàn)良好,而在某些類別的分類上性能卻不高,如飯館、圖書館、公園和居民區(qū)。這主要是因為噪聲影響使其具有的特定聲學事件變得模糊不清,或是該類聲學場景中具有易與其他聲學場景造成混淆的相似聲學事件[29-30]。而在測試集樣本的總預測時間方面,幾種特征沒有明顯的區(qū)別,都能夠滿足一般場景下的實時性要求。

        5 結(jié) 論

        為解決ASC任務中特征提取與模型訓練的聯(lián)合優(yōu)化問題,首先對聲譜圖進行NMF,得到基矩陣和權(quán)值矩陣,然后搭建并訓練CNN模型,根據(jù)訓練結(jié)果反向更新基矩陣以獲得修正的SNMF特征,實現(xiàn)一種NMF與CNN聯(lián)合優(yōu)化的有監(jiān)督特征學習方法。得出結(jié)論如下:

        (1) 提高特征維數(shù)有利于學習更細分的基事件,但維數(shù)過高則會因噪聲和冗余信息降低識別效果;

        (2) 由于聯(lián)合優(yōu)化算法依賴于梯度反向傳播,過高的網(wǎng)絡層數(shù)會引起梯度消失從而影響算法的優(yōu)化效果;

        (3) 相較于直接使用NMF特征,聯(lián)合優(yōu)化后的SNMF特征能夠使分類準確率得到明顯提升;

        (4) 所提方法實現(xiàn)了特征提取與網(wǎng)絡訓練的聯(lián)合優(yōu)化,是一種有效的聲學場景分類方法。

        猜你喜歡
        分類特征優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        分類算一算
        一道優(yōu)化題的幾何解法
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        久久久久这里只有精品网| 亚洲av精二区三区日韩| 亚洲精品中文字幕乱码三区99| 人妻少妇精品视频一区二区三区l| 最新露脸自拍视频在线观看| 无码一区二区三区亚洲人妻| 亚洲黄色一级毛片| 一区二区三区国产视频在线观看 | 国产精品国产三级国产AvkTV| 日韩一级精品视频免费在线看| 观看在线人视频| 精品人人妻人人澡人人爽牛牛| 国产伦精品一区二区三区视| 日本精品国产1区2区3区| 大香蕉av一区二区三区| 亚洲国产av精品一区二区蜜芽 | 国产欧美一区二区精品久久久| 少妇的肉体k8经典| 精品人妻一区二区三区蜜桃| 日本超级老熟女影音播放| 国产色xx群视频射精| 最新国产日韩AV线| 高h视频在线免费观看| 国产诱惑人的视频在线观看| 中国美女a级毛片| 中文字幕一区二区三区乱码| 亚洲精品国产品国语在线app| 在线观看国产激情免费视频| 亚洲一区二区三区尿失禁| 老妇肥熟凸凹丰满刺激| 免费人人av看| 国产视频一区二区在线免费观看| 久激情内射婷内射蜜桃| 国产成人午夜福利在线小电影| 日韩国产自拍视频在线观看| 少妇被粗大的猛进出69影院 | 2021国产视频不卡在线| 偷柏自拍亚洲综合在线| 亚洲av综合色区无码另类小说| 欧美日韩精品一区二区在线观看| 91白浆在线视频|