亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用頻譜變換的水聲信號分類框架

        2021-11-20 01:57:18張逸杰袁佳偉趙亞培宋慶增
        計算機工程與設計 2021年11期
        關鍵詞:音頻頻譜框架

        張逸杰,袁佳偉,趙亞培,王 通,宋慶增

        (天津工業(yè)大學 計算機科學與技術學院,天津 300387)

        0 引 言

        水下目標分類和識別對海洋探索發(fā)揮著至關重要的作用。水下信號多為聲納探測獲取到的音頻數據,然而從音頻數據中直接進行目標分類,存在很多技術難點。傳統(tǒng)的方法把音頻信號通過頻譜變換生成頻譜圖,再由技術員進行目標識別[1],因此非常依賴操作人工操作。

        近年來,深度學習[2]在目標自動分類和識別領域表現非常突出。一些研究人員嘗試使用深度學習方法對水聲信號進行分類,取得了一定的效果。Li等[3]通過卷積神經網絡(CNN[4])提升了魚類目標的識別率。J?ger等[5]通過CNN方法提高魚類跟蹤的準確性。Matias[6]將CNN用于聲納圖像的目標識別并取得了良好的效果。然而由于保密等原因,數據的獲取困難,所能獲取到的水聲信號樣本不足,會導致深度學習模型在這些數據樣本上過擬合,在一定程度上限制了深度學習方法的應用場景。

        近年來,(generative adversarial net,GAN)框架[7]已被證明可以有效地解決樣本短缺問題,并得到廣泛的應用。但在小樣本水下信號的應用中,由于海洋噪音的多樣性,簡單應用GAN生成樣本,會導致GAN的生成器無法抓住目標的關鍵特征信息,因此無法幫助生成有效樣本。

        為解決上述問題,本文提出一種水聲信號分類框架,可以在樣本不足的情況下,利用頻譜變換及GAN網絡擴充樣本,再通過改進分類網絡,提高目標分類準確率。

        1 本文所提框架概述

        面對水聲信號的分類,傳統(tǒng)方法的分類準確率較低。而深度學習方法面臨樣本不足導致的過擬合以及簡單使用GAN生成的樣本基本無法滿足需求的情況,本文提出一種水聲信號分類框架,可以在樣本不足的情況下,提高目標分類準確率。①本文的框架首先把音頻通過頻譜變換轉換為頻譜圖,從而保留并強化小樣本中的關鍵特征。在選擇頻譜變換時,本文同時考慮了幾種被廣泛使用的頻譜變化:音頻、圖像直方圖、DEMON[8]與LOFAR頻譜[9]。通過這幾種頻譜圖在CNN分類器中的預測試分類準確率,最終選擇了LOFAR頻譜對數據樣本進行頻譜變換。②為應對樣本不足的情況,本文的框架利用一個GAN網絡來生成高質量的擴充樣本。同時,對生成的樣本,利用CNN分類器檢測生成樣本的質量,并根據檢測結果對GAN進行了修改。通過這些工作,本文的框架已經可以得到具備足夠多且有效的樣本。③最后框架通過比對一些現有的最新分類模型,選出一個精確度最高的分類器,作為可以使用在實際應用中的模型。這些分類器包括了現有的一些分類網絡,本文還提出新的分類模型。本文的實驗結果表明,所生成灰度圖在很大程度上保留了原有聲音信號的頻率特征,并可以生成豐富的樣本類型,所以可以用于水下應用中的分類任務。對于樣本不足,或者通過音頻頻譜變換無法得到較好性能的情況,本文所提出的框架可以成為一個很好的工具。

        2 相關工作

        本文框架選擇的現有的分類網絡,包括Lenet-5[4]、ALEXNET[4]、VGG16[4]、Mark.S的MobileNetV2[10]和基于Lenet-5修改后的網絡。這些源自CNN的網絡最初并未用于水下信號分類情況。其中,Lenet-5由兩個卷積層,兩個池化層和兩個全連接層組成。卷積核的大小為5×5,卷積步長為1。ALEXNET通過卷積層來抽取圖像中的抽象信息,池化層來進一步提高特征的維度信息,以及最后的全連接層來整理特征信息并分類最后的結果。模型在使用了11×11的大卷積濾波器。VGG有很多的版本,本文使用VGG16進行比較。VGG16是一個大型網絡,具有13個卷積層、5個池化層和2個全連接層。

        GAN框架近來已經成為一種新的生產樣本的方法,GAN在生成樣本,例如圖像、語音、文本[18]等已經廣為應用。GAN由模型D和模型G兩部分組成,模型G用于生成樣本,模型D用于區(qū)分模型G生成樣本的是否真實。隨著GAN框架的不斷發(fā)展,產生了許多基于GAN的派生模型。其中,DCGAN[7](深度卷積GAN)將卷積神經網絡應用于GAN,以提高GAN的穩(wěn)定性和收斂速度。WGAN wasserstein GAN[7]使用Earth-Mover代替Jensen-Shannon divergence作為解決梯度消失問題的訓練準則。BEGAN(boundary equilibrium GAN[7])提出了一種生成器評估標準,該標準通過估計數據分布誤差的差異來衡量生成數據的效果,而不是直接估計真實和偽造數據分布之間的差異。如果生成器和判別器都以某些額外信息為條件,則可以將CGAN[7]擴展為條件模型。CGAN是以GAN為基礎進一步改造而成的可應用條件的生成模型,ACGAN[7]、InfoGAN[7]與CGAN類似,它們都是針對不同的任務生成,ACGAN可以幫助分類任務,在對抗訓練時,判別器對輸入的類別提供上對應的概率。InfoGAN調整了GAN本身的輸入和輸出之間的量化關系。

        3 本文的工作

        3.1 結 構

        圖1(a)是*.wav格式的原始樣本。圖1(b)通過頻譜進行數據處理,并利用CNN模型選擇最佳頻譜。圖1(c)利用GAN的數據集擴展,再用一個CNN模型確保質量。圖1(d)對一些分類網絡模型進行評估,并選擇其中最佳的模型。圖1顯示了文中所提出的框架的整體結構,其過程可以抽象如下

        圖1 針對水聲信號不足情況提出的分類框架

        (1)

        算法1: 框架運行的過程

        輸入: 采集到的音頻信號

        輸出: 對不同類型信號的分類結果

        步驟1 頻譜變換

        Nsample為樣本的數量,S是初始的樣本集合,Nspectrum是頻譜數, Pre是將音頻樣本處理成為頻譜圖的方法,i=(1,Nspectrum)

        Fori=1

        Repeat

        S(i)=Pre(i)(S)

        i=i+1

        untili=Nspectrum

        得到處理過后的樣本集如下

        其中L是S的標簽集, M是CNN模型。 再進行以下處理:

        For i=1

        Repeat

        j=(1,…,Ntrain)

        J=(Ntrain+1,Nsample)

        Train(S(i)train,L(i)train)

        P(i)=Rate(M(S(i)test),L(i)test)

        untili=Nspectrum

        下一步可以通過Pre(x)=argmaxP(i)得到最好的頻譜變換方式,以及相對應的樣本集S(x)

        步驟2 使用GAN擴充樣本

        Fori=1

        Repeat

        untili=Ngenerate

        步驟3 確保生成樣本的質量

        Nfinal是樣本集S*的數量,

        i=(Nsample*0.8+1,Nsample),P*=Rate(Mg(Stest),Ltest)

        M*是CNN模型,M*由Strian,Ltrain訓練得到,得到M*基于Stest的正確率。

        IfP*

        重新進入步驟2,調節(jié)GAN網絡結構或參數得到新的GAN模型。

        步驟4 訓練分類網絡

        Mk是相應的CNN網絡模型,Nmodel是選取的CNN網絡的數量。

        Mk訓練基于Strian,Ltrain

        Fork=1

        Repeat

        train(Mk)

        k=k+1

        untilk=Nmodel

        k=(1,Nmodel)

        步驟5 選擇最好的分類網絡

        Stest={Si},Ltest={Li},i=(Nsample×0.8+1,Nsample)

        P(k)=Rate(Mg(Stest),Ltest)

        P(k)是不同的Mk在Stest上的準確率

        3.2 數據處理

        本文所使用的原始數據集是wav格式的音頻。在實際應用中,雷達操作員不僅基于水下聲音,還基于機器上顯示的音頻信號的頻譜圖對目標做出判斷。因此,可以通過將原始音頻轉換為頻譜的形式,將音頻識別任務轉換為圖像分類任務,再通過深度學習方法進行分類,可以達到協(xié)助工作人員對水下目標分類識別的目的。為了找到可供CNN網絡訓練的頻譜,本文選擇了最為普遍采用的頻譜:音頻頻譜、圖像直方圖、DEMON和LOFAR。其中,LOFAR頻譜是信號的連續(xù)時域采樣,通常應用于目標識別。在水下聲音信號處理領域,操作員通過識別LOFAR頻譜圖像的線特征來完成跟蹤目標的任務。LOFAR頻譜采用短時傅立葉變換(STFT)[11],獲得時變信息,并對信號的連續(xù)時域采樣。在水下聲音信號處理領域,很多操作員通過識別LOFAR頻譜圖像的線特征來完成跟蹤目標的任務。

        將原始的水聲信號轉換為頻譜樣本后,本文的框架通過Lenet-5對其進行評估,以選擇最佳頻譜。本文的框架在每個頻譜樣本集上獨立訓練該模型。最終分類的準確性表明,LOFAR可以達到最高的準確性,此結果將在第4.2節(jié)的實驗中詳細說明。然后,本文的框架將選定的頻譜樣本用作GAN模型的輸入,以生成更多的樣本,再由獨立的分類網絡模型評估生成樣本的質量。

        3.3 GAN的網絡結構

        本文采用的GAN模型基于CGAN,并對其進行了修改,其原理如式(2)所示。本文的GAN包含兩個部分:生成模型G和判別模型D、G學習特征分布,同時D計算樣本來自訓練數據而不是G的概率。通過動態(tài)博弈,最終達到某個穩(wěn)定狀態(tài),即G的特征分布盡可能接近真實樣本的分布。不同的是,生成器和判別器都取決于一些額外的信息y。在本文中y是類別標簽,將其作為附加輸入輸入到判別器和生成器中。

        圖2展示了GAN模型的抽象結構:Conv1、Conv2和Conv3表示卷積層;FC1和FC2表示全連接層;Upconv1、Upconv2和Upconv3表示反卷積層。GAN過程的抽象描述如下

        圖2 修改后的CGAN的總體結構

        (2)

        其中,生成器通過建立從先驗噪聲z及其分布pz(z) 到數據空間的映射函數G(z|y) 來學習數據D(x|y) 的分布。判別器G(z|y) 輸出一個單一標量,表示x來自生成數據的概率。通過調整G和D的參數以使Log(1-D(G(z|y)))、 LogD(x|y) 最小化。

        GAN模型中的判別器的架構和詳細參數見表1,生成器的內容見表2。判別器的主要部分由CNN構成,包括1個輸入層、3個卷積層和2個全連接層。池化層由于特殊的結構,在放大或者平均像素之間的表示能力時,會導致特征的輸出在整體結果產生一定程度上的損失,所以本文并未在模型中添加池化層。尤其是當頻譜變換已經損失部分特征時。輸入數據擁有16個通道,由訓練數據和原始數據拼接在一起。模型在第一層中設置了64個卷積核、第二個卷積層有128個濾波器、第三個卷積有256個濾波器,每個濾波器的滑動步長都是2。經過3層卷積后,數據變到二維,作為全連接層輸入,第一維對應于批處理數,第二維對應于圖像的計算結果。模型的輸入數據包含4個維度,分別是圖像的數量、高度、寬度以及圖像本身的通道數與類別的總和。模型對最后3層的輸出使用了Relu[4]和BN處理。并且使用sigmiod函數對最后一層的輸出結果做激活處理,將最后的結果映射在0到1之間,這樣可以更好量化每個類型之間的預測偏向程度。

        表1 GAN模型中的判別器的設計

        表2 GAN模型中的生成器的設計

        生成器與判別器大致相似,但是生成器的方向相反,它包括一個輸入層,2個全連接層和3個從前到后的反卷積層。隨機噪聲向量是由輸入層數據選擇的,長度為77,并且將類別數加為5。第一個反卷積層有256個濾波器,第二個反卷積層有128個濾波器,第三個有64個濾波器,每次卷積計算時,跨度設置為2,與反卷積相連的全連接層的輸出需要經過特殊的維度處理,將二維的數據轉換為四維的數據,這樣可以通過反卷積處理將數據還原到原始圖像的尺度。生成器才能夠輸出所要的目標灰度圖。如表2所示,輸入層是一個二維數組,第一維對應于批處理的大小,第二維對應于隨機噪聲矢量長度和標簽數的總和,條件標簽實際上是長度為n的一維數組,其值是float,其中每個值都是-1到1之間的隨機樣本。并在全連接層和反卷積層之間執(zhí)行ReLU和批量歸一化操作。

        3.4 分類網絡的結構

        本文提出的分類網絡以Lenet-5為基礎修改,目的是為了更加適應頻譜變換后的樣本。Lenet-5包括一個輸入層、兩個卷積層、兩個最大池化層和兩個全連接層。Lenet-5的體系結構見表3。

        表3 Lenet-5的參數

        修改后的網絡架構參數配置見表4。訓練樣本在輸入模型后,會經過包含5個卷積核的第一層網絡,通過4×4的特征抽取范圍對樣本提取特征,這一層不設置降采樣與樣本填充操作。第二個卷積層采用了與第一個卷積層相同的卷積核數量,但是設置了降采樣,同樣沒有填充。在緊跟著的池化層中,通過2×2的特征抽取范圍來盡可能地減小特征的損失,同時以2作為步長來降采樣。通過縮小樣本的尺度來取得更大程度上的特征感受。使用最大池化而不是平均池化可以保留最強烈的特征。

        表4 修改后的Lenet-5的參數

        如圖3所示,修改后的模型通過將卷積和池化層分為5組。每組都改變了卷積核的尺寸和數量,能更好保留特征并提升分類準確度。由于圖像彼此之間存在一定的差異,因此對模型的開始輸入執(zhí)行標準化處理,并且按式(3)進行縮放和移位。α和β是矢量,其工作方式如下

        圖3 改進后的Lenet-5的體系結構

        (3)

        其中,x和y由式(2)定義。網絡有4個全連接層,將激活函數RELU應用于第一個全連接層。通常,每層的輸出都是輸入的線性函數,因此,沒有隱藏層。引入非線性函數作為激勵函數后,它就不再是輸入的線性組合。選擇RELU是因為它不會同時激活所有神經元。如果輸入值小于零,則RELU將輸出0,并且不會激活神經元,起到加速模型收斂的效果。最后一層用作分類器,它通過對輸入計算,以捕獲整個圖像的特征并對圖像進行分類。最后,通過Softmax[4]運算對輸出進行處理,該運算會生成一個表示標簽概率的向量。

        4 實 驗

        4.1 數據集的準備

        框架需要對原始音頻數據集做頻譜變換,原始音頻由實際應用程序獲得,并基于移動和固定目標識別的數據集(稱為MSTAR)將其標記為5種類型。在許多基于特征的調查系統(tǒng)中,都使用了MSTAR數據集。它是美國空軍的傳感器和數據管理系統(tǒng)的公共數據集。為了確保分類數據集的差異,本文從另一個公共數據集[12]和網上收集每個標簽的音頻數據來擴展它。標簽的詳細信息和數據集的結構如圖4所示。根據收集的樣本種類和數量,本文組織并選擇了最多的5類數據,以避免某種數據過少而引起樣本不平衡。每個樣本被分成相同的時間長度(2 s,每0.5 s滑動一次)。最后在每個標簽中選擇1000個樣本。

        圖4 數據集的標簽

        4.2 對頻譜的評估

        本文選擇原始音頻格式樣本并將其轉換為對應的頻譜樣本,將每個數據集分為80%用于訓練和20%用于測試。本文采用Lenet-5作為頻譜樣本的評估網絡。如表5所示,神經網絡在LOFAR頻譜樣本上可以實現更高的性能(70.7%),優(yōu)于其它樣本(最好為59.9%)。因此,最終選擇LOFAR頻譜作為框架中的頻譜變換方法。

        表5 頻譜的分類結果

        4.3 對生成樣本的評估

        本文將LOFAR轉換后的樣本送入到GAN網絡,通過對GAN模型的調整來生成高質量的樣本。圖5顯示了一些原始樣本和生成的樣本。其中圖5(a)選取多樣性比較高的1分類的4個代表性樣本,及其生成后的樣本圖5(b)。圖5(c)選取剩下4分類,每個分類選兩張代表性樣本,及其生成相應的樣本圖5(d),如圖5所示,通過上文的整體生成框架,可以發(fā)現最后生成的樣本與原始樣本之間具有高度相似的頻率特征,并且可以更直觀發(fā)現生成樣本受到更少的噪聲干擾,在頻譜圖中擁有相對于原始樣本而言更鮮明的特征頻率。

        圖5 原始樣本和生成樣本展示注:(a)和(b)是1類樣本;(c)和(d)是4類樣本。

        本文的框架通過利用GAN網絡生成了大量的樣本。其中每個類別都生成了3000個樣本,然后采用Lenet-5作為其質量檢測模型。測試的時候,將原始樣本中的80%與生成樣本混合作為一個整體訓練數據集,將原始樣本中的20%取出當作測試集。實驗結果表明在擴充的數據集中訓練的模型,在測試數據集中實現了較高的分類精度(80.8%),高于僅在原始數據集進行訓練的模型的精度(70.7%),或直接在音頻頻譜上進行訓練的模型的精度(59.9%)。實驗結果表明確實本文提出的GAN框架可以生成據高質量的樣本,因此可以將它們用于隨后的分類網絡。

        4.4 訓練方法的評估

        在本節(jié)中,對于本文提出的網絡,進行不同訓練方法的評估。即考察如何按不同比例混合生成樣本和原始樣本進行訓練,從而提高模型精度。表6顯示了不同樣本選取比例下的模型精度。

        表6 不同訓練集的分類結果

        如表6所示,分類精度受所使用的原始樣本與生成樣本的比例影響。隨著訓練過程中使用的原始樣本和生成的樣本數增加,可以實現更高的分類精度。

        4.5 對分類網絡的對比

        實驗所用到的分類網絡包括Lenet-5、ALEXNET、VGG16、Mark.S的MobileNetV2以及基于Lenet-5的改進網絡。表7顯示了這些模型的精度對比結果。本文的實驗將原始數據集的80%和全部生成樣本,融合為一個整體訓練集,原始樣本的20%作為測試集。實驗結果表明,改進的Lenet-5(命名為Our)的性能最佳,為97.2%,驗證了本文提出框架可以大大提高水下目標分類精度。

        表7 最終網絡分類結果

        4.6 對于同樣采用LOFAR頻譜的框架的對比

        本文還和如下采用頻譜方法的框架進行了對比:Wang等[13]、Li等[14]、岳皓[15]。Wang等的工作是提出具有自適應權重卷積神經網絡的深度學習模型對水下聲信號進行分類,Li等的工作是提出基于時延神經網絡的分類器對水下聲信號頻譜圖分類,岳皓是通過深度學習分類器的改進進而提高水聲LOFAR頻譜圖的分類結果。表8顯示了最終對比結果。通過框架間的評估對比,可以明顯看出使用本文提出的框架對于處理水聲分類的特定場景有很好的表現。

        表8 最終框架分類結果

        5 結束語

        本文介紹了一個框架,該框架利用LOFAR頻譜進行數據變換以進行水下目標分類和識別,并在水聲信號處理中將神經網絡應用于樣本的擴展和水下目標的分類。雖然音頻頻譜或其它頻譜可以提供更多信息,但其中也包含了對水下信號分類無用的噪聲,因此經驗豐富的操作員通常使用LOFAR頻譜進行手動分類水下目標。因為深度學習網絡需要足夠的樣本來提取對象的關鍵特征,針對樣本不足的情況,本文提出的框架利用LOFAR頻譜過濾噪聲并保留關鍵特征,再利用GAN生成高質量的LOFAR頻譜樣本。本文介紹了如何在小樣本水聲信號應用中,使用GAN和LOFAR頻譜生成大量有效樣本的方法。本文提出的框架最終分類準確率達到97.2%,基本上可以用于實際應用。

        在未來的工作中,將計劃研究如何有效利用頻譜,并設計更有針對性的網絡,從而進一步提高分類精度。

        猜你喜歡
        音頻頻譜框架
        框架
        一種用于深空探測的Chirp變換頻譜分析儀設計與實現
        廣義框架的不相交性
        必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
        一種基于稀疏度估計的自適應壓縮頻譜感知算法
        測控技術(2018年7期)2018-12-09 08:58:22
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        認知無線電頻譜感知技術綜述
        精品蜜桃av一区二区三区| 最新国产乱人伦偷精品免费网站 | 轻点好疼好大好爽视频| 国产成人亚洲综合无码| 日本嗯啊在线观看| 青青久在线视频免费视频| 美女露内裤扒开腿让男人桶无遮挡| 少妇激情av一区二区| 中文字幕亚洲区第一页| 六月婷婷亚洲性色av蜜桃| 欧美人妻少妇精品久久黑人| 国产手机在线αⅴ片无码| 日本在线中文字幕一区| 加勒比东京热中文字幕| 麻豆果冻传媒在线观看| 亚洲国产精品国语在线| 青青草是针对华人绿色超碰| 亚洲精品久久激情国产片| a级黑人大硬长爽猛出猛进 | 国产亚洲精品综合99久久| 刚出嫁新婚少妇很紧很爽| 亚洲avav天堂av在线网毛片| 手机看片福利盒子久久青| 久久夜色精品亚洲天堂| 日本乱子人伦在线视频| 91精品综合久久久久m3u8| 国产老熟女伦老熟妇露脸| 亚洲乱亚洲乱妇| 在线观看视频一区| 亚洲福利网站在线一区不卡| 女人18毛片a级毛片| 放荡的闷骚娇妻h| 日本高清视频在线一区二区三区| 亚洲精品中文字幕乱码影院| 午夜精品久久久久成人| 国产成人亚洲综合小说区| 日本免费一区二区三区在线看| 日本一区二区在线播放| 久久久久国产精品| 欧美日韩在线免费看| 国产日韩乱码精品一区二区|