亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CGRU多輸入特征的地空通話自動切分

        2020-09-23 07:04:06郭東岳
        四川大學學報(自然科學版) 2020年5期
        關鍵詞:通話音頻語音

        郭東岳,林 毅,楊 波,2

        (1.四川大學視覺合成圖形圖像技術國防重點學科實驗室,成都 610065; 2.四川大學計算機學院,成都 610065)

        1 引 言

        隨著空管自動化概念的提出,許多前沿技術都在空中交通管制中進行了探索與應用.其中,地空通話語音識別、聲紋識別等是研發(fā)空中管制安全輔助系統[1]、通話數據分析系統的主要技術手段.地空通話實時自動切分是從地空通話語音流中將不同說話人的語音切分出來,為語音降噪、語音識別、聲紋識別等應用提供可靠的語料信息,是大型空管語音應用系統中不可或缺的環(huán)節(jié).

        目前主流的語音切分方法一般是基于語音端點檢測VAD(Voice Activity Detection)方法實現,從技術原理來看主要分為三類:(1) 是基于聲音能量特征,比如過零率、短時能量、雙門限法[2]等,這類方法抗噪性較差,只能進行簡單的聲音與靜音的檢測,適用于語音信道噪聲較小的場景;(2) 是基于語音統計學特征,比如高斯混合模型GMM(Gaussian Mixed Model)[3]、隱馬爾科夫模型HMM(Hidden Markov Model)[4]、譜熵法[5]等,這類方法抗噪性較好,能區(qū)分一般噪聲與人聲的區(qū)別,就魯棒性而言要優(yōu)于第一類.其中,Google 開源的基于GMM的webrtcvad語音切分算法以其普適性、靈活性在工業(yè)界頗受歡迎.但是這類方法不能應對特殊噪聲,如電話鈴聲,特殊設備噪聲等;(3) 是基于深度神經網絡DNN(Deep Neural Network)、卷積神經網絡CNN(Convolutional Neural Network)、循環(huán)神經網絡RNN(Recurrent Neural Network)等深度學習的方法[6-14].這類方法通過監(jiān)督學習訓練分類模型以區(qū)分語音幀與非語音幀的特征,既可以適用于普通語音環(huán)境下,又可以針對特殊環(huán)境下的語音信道進行采樣、學習,以適應特殊信道、提高切分的準確率.

        本文前期研究[6]證明了地空通話語音切分中基于CNN深度神經網絡的方法的性能優(yōu)于基于GMM的方法.該方法在幀級別上對語音幀和非語音幀進行了區(qū)分,加入噪聲幀訓練后,模型具有一定的抗噪性,能有效規(guī)避噪聲的干擾.但是,該方法在通話停頓時間較長時仍然會將語句切斷.基于以上不足之處,本文做了以下幾點研究.

        (1) CGRU神經網絡:基于本文的前期研究工作[6],改進了CNN卷積結構,并在CNN卷積之后加入了基于RNN的門控循環(huán)單元GRU(Gated Recurrent Unit)網絡層,即本文提出的CGRU結構.實驗結果表明,CGRU網絡進一步提高了卷積核的音頻特征提取能力,同時提高了幀級別的分類精度.

        (3) 多特征輸入:對比了LPS(log-power Spectrum)、MFCC(Mel Frequency Cepstral Coefficents)、Fbank(Filter Bank)以及MFE(MFCC、Fbank、Energy) 聯合特征在地空通話語音切分中的性能.

        實驗結果證明,本文提出的方法網絡參數較少,在保證實時切分的前提下準確度明顯提高,同時在未訓練過的地空通話信道中表現良好,是一種穩(wěn)定、高效的地空通話自動切分的方法.

        2 地空通話的特點

        地空通話主要依靠高頻無線電收發(fā)語音信號,實時性強,但是易受天氣、設備等因素干擾,從而影響通話質量.地空通話自動切分的主要難點是從實時的語音流中檢測一句話的開始與結束,尤其是語音結束點.飛行流量、說話人習慣、語速、信道質量等都是影響判斷語音端點的關鍵.根據大量通話數據分析發(fā)現,地空通話語音切分技術較一般語音切分主要有以下難點.

        (1) 地空通話往往是以對話的形式出現,管制員發(fā)出管制指令后,飛行員要馬上復誦以確認指令.如圖1(a)所示,由于應答時間間隔短,對話產生粘連,傳統方法難以切分對話.

        (2) 飛行流量高峰時段信道中說話人較多、通話密集,各說話人語速、習慣等不盡相同,對算法的魯棒性要求較高.

        (3) 信道易受天氣、通話設備等因素的影響,在惡劣的生產環(huán)境下信道中出現大量隨機不穩(wěn)定噪聲.

        本文通過對成都、北京、太原等地區(qū)管制中心的大量歷史通話數據分析發(fā)現,在多數信道中每人通話結尾均存在一種特殊的音頻幀,幀長在30~60 ms不等.經分析驗證,該幀是釋放通話設備(PTT)開關時產生的一種特殊信號.一般而言,該幀的出現標志著說話人釋放了PTT開關,即說話結束,本文定義該幀為結束幀.以結束幀作為語音結束標志并結合靜噪音檢測將大幅度提高語音端點檢測的準確性,從而提高切分精度.在實際應用中,由于各管制中心通話設備不盡相同,結束幀也存在一定的差異,目前數據集中約存在6類結束幀,其波形-頻譜圖樣例如圖1(b)和(c)所示,而隨著應用場景的增加結束幀的類別也將隨之增加.目前亟需一種通用的技術手段以辨別不同的結束幀,提高切分方法魯棒性,以達到自適應切分各地區(qū)地空通話的目的.

        2.not only...but also...意思是“不但……而且……”,主要用于連接兩個對等的成分;若連接兩個成分作主語,其后謂語動詞與靠近的主語保持一致。

        因此,針對地空通話的特性,本文從各管制中心歷史地空通話語音中采集特殊噪音、結束幀樣本,經數據清洗、人工標注后加入數據集進行訓練深度神經網絡,旨在應對極端天氣或復雜環(huán)境下的不穩(wěn)定噪聲,提高語音切分準確率.

        (b) 結束幀1

        (c) 結束幀2圖1 地空通話的特點Fig.1 Examples audio of air-ground communication

        3 地空通話自動切分方法

        根據地空通話的特點,需要設計一種抗噪性強、魯棒性較好、計算速度快的網絡結構完成地空通話實時切分任務.文獻[16]研究表明,Convolutional Recurrent Neural Networks在音頻分類任務中的表現優(yōu)異.本文在改進前期研究[6]中的CNN卷積結構的同時,加入了GRU網絡層,將模型的輸出類別為三類,包含語音幀、結束幀和其他幀,并提出了一種簡單平滑算法.

        3.1 CGRU網絡結構

        為了保證空管安全輔助系統的實時性、降低切分時延,與一般使用上下文多幀輸入的深度學習方法不同,本文采用幀長35 ms,步長15 ms的單幀預測策略,分別提取13維的MFCC特征、Fbank特征、短時能量三種特征組成3×13維的MFE聯合特征,特征向量經數據歸一化后作為神經網絡的輸入.MFE聯合特征能夠有效彌補單幀預測引起的輸入信息不足,同時MFE聯合多種音頻特征作為模型輸入,音頻信號經過MFE聯合特征抽取的預處理,初步抽象出了音頻信號的高維特征,其計算代價要遠遠小于原始波形、LPS等特征,大大減少了模型的計算時間.

        首先,MFE聯合特征經過3層卷積模塊,每個卷積模塊包含Conv2D、BatchNorm、MaxPooling和Dropout等4個部分,每層使用ELU[17-18]非線性激活函數.其表示如式(1)所示,X和Y分別表示卷積模塊的輸入和輸出矩陣,β(x)、φ(x)、δ(x)分別表示歸一化、非線性激活和下采樣的過程.conv(x,W)是卷積層,其主要作用是進一步的聚合MFE聯合特征,得到高維語音信號的時域和頻域非線性特征.其中,W是權重矩陣,b是偏置矩陣.β(x)基于卷積操作參數共享的優(yōu)勢對卷積結果進行歸一化以減小數據分布的離散度,可以加快模型收斂速度,大大減少模型訓練時間.δ(x)是對特征進行下采樣,在保留主要特征的同時,對數據降維處理.同時,下采樣操作可以有效防止過擬合,減少網絡參數,增強模型的泛化能力.Dropout負責剪枝不必要的網絡參數,加快模型計算速度.

        Y=δ(φ(β(conv(X,W)+b)))

        (1)

        隨后,將CNN卷積模塊提取出的非線性特征饋入GRU網絡層[19-20].GRU門控循環(huán)神經網絡是RNN的變體,它引入了重置門(reset gate)和更新門(update gate)概念.假設給定時間步t的語音高維聚合特征Xt和上一時間步的隱藏狀態(tài)Ht-1,重置門Rt、更新門Zt的計算如式(2)和式(3)所示.

        Rt=σ(XtWxr+Ht-1Whr+br)

        (2)

        Zt=σ(XtWxz+Ht-1Whz+bz)

        (3)

        其中,σ(x)為激活函數,Wxr、Whr、Wxz、Whz是權重矩陣,br、bz是偏置矩陣.GRU層通過可學習的門控單元控制信息流動,捕捉短時平穩(wěn)的音頻信號內部的變化關系,有助于提高分類精度.并且GRU在保持RNN特性的同時又擁有更加簡單的結構,大大減少了訓練時間和訓練難度.最后,由softmax層輸出音頻幀的所屬類別的概率.

        本文提出的CGRU網絡結構如圖2(a)所示,網絡參數細節(jié)如表1所示.CGRU網絡改進了前期研究[6]CNN網絡結構(圖2(c))中的卷積模塊,采用3×3的小卷積核,在保證足夠感受野的前提下,減少了網絡參數,并且在卷積過程中加入batch normalization層,以提升訓練速度和模型精度.并且在卷積模塊之后加入GRU網絡層捕獲音頻信號的時序變化,使得網絡的特征提取能力顯著提升.在實驗階段,本文也實現了文獻[9]中的RAW CLDNN(圖2(b))方法,與之相比本文提出的MFE輸入特征經過音頻信號預處理更加適用于復雜環(huán)境,而原始波形作為輸入易受環(huán)境影響,泛華能力相對較弱.并且,使用GRU網絡層代替LSTM,可以縮減訓練時間,降低訓練難度,更適用于工程應用.

        表1 CGRU網絡參數表Tab.1 Configurations of the proposed CGRU

        圖2 網絡結構圖Fig.2 Network structure

        實驗結果表明,CGRU網絡結構中的CNN卷積模塊可以抽取地空通話語音中的語音幀、結束幀以及不穩(wěn)定的噪聲幀的局部特征,GRU門控循環(huán)單元能捕捉幀內信息短時變化的依賴關系,能較好的完成幀分類任務.并且該網絡結構簡單,模型總參數不足40 K,能夠滿足實時切分的需要.

        3.2 平滑算法

        本文從地空通話內話系統引接音頻信號到專業(yè)音頻采集設備,編程讀取實時語音流,并進行音頻信號分幀、預處理等操作,然后饋入訓練好的模型預測所屬類別,完成切分任務.為了提高切分的準確率,降低語音幀間的短暫停頓、信道噪聲等因素對切分效果影響,本文提出了如下平滑算法.對于輸入音頻幀序列Xn={x1,x2,x3,……,xn-1,xn}(n>0),分類模型預測類別序列為Yn={y1,y2,y3,……,yn-1,yn},yi={ls,le,lo}.其中,yi為one-hot編碼,當ls為真時表示輸出結果為語音幀;le為真時表示輸出結果為結束幀;lo為真時表示輸出結果為其它幀.幀的最終標簽由預測本身以及上下文共同決定.當音頻幀xi的預測結果yi為語音,且語音幀子序列{xi-1……xi-m}對應的預測序列{yi-1……yi-m}中的語音幀ls之和大于ξ,則認為檢測到語音開始.其中,m,ξ為適應性參數,根據當前傳輸信道質量等因素設置.當語音開始后,若檢測到xi結束幀le,認為語音結束,單句實時切分完成;同理,若檢測到xi為其他幀,當語音幀子序列{xi+1……xi+m'}預測序列{yi-1……yi+m'}中其他幀lo之和大于μ,認為語音結束,否則認為是不平穩(wěn)的短噪聲.定義語音開始端點為ssp(Speech start point),結束端點為sep(Speech end point),則語音端點Li計算方法如式(4)所示.

        (4)

        通過調整平滑算法中的參數能夠避免信道中的不穩(wěn)定噪聲以及通話時的短暫停頓引起的抖動,避免將句子切斷,從而保證語料的完整性,為后端應用提供可靠的輸入.因此,平滑算法能一定程度上提升語音切分的準確率.

        4 實 驗

        4.1 數據集與實驗環(huán)境

        與文獻[6]中數據集不同,本文實驗數據取自成都、太原、北京和上海等區(qū)域管制中心的歷史地空通話語音數據,數據中復雜環(huán)境下的帶噪語音占比較高.該數據經過人工清洗、標注后作為實驗數據集.本文采用8 K采樣率、16 bit采樣精度的原始音頻樣本數據,總時長約100 h.其中包括語音數據時長約45 h,靜音/噪音時長約50 h,結束幀時長約 5 h.實驗中將原始數據分為以下子集以驗證模型性能:80%為訓練集,10%為驗證集,其余10%用作測試集.

        訓練服務器采用Ubuntu 16.04操作系統,NVIDIA GTX 1080顯卡提高模型訓練速度.測試環(huán)境嚴格仿真地空通話生產環(huán)境,采用模擬音頻信號仿真地空通話內話系統作為專業(yè)音頻采集設備的輸入.

        4.2 對比實驗設計

        GMM-webrtcvad: webrtcvad是google開源的語音端點檢測工具,該算法基于GMM提取音頻幀子帶能量對語音/非語音建立統計學模型,使用假設檢驗的方法確定音頻幀的類型,是一種無監(jiān)督的學習方法.其主要特點是簡單易用、適用場景廣泛,并且模型參數根據時間上下文實時更新,目前在工業(yè)界頗受歡迎.經多次實驗,將其初始化參數設置為2(aggressive mode),幀長設置為30 ms,在地空通話信道中效果達到最優(yōu),在本次對比實驗中均采用最優(yōu)參數.

        CNN: 實驗把本文的前期研究[6]中的CNN網絡的softmax層的輸出神經元修改為3個,選取幀長32 ms為一幀,提取1×256的LPS特征向量作為網絡輸入.損失函數尊選取交叉熵函數,優(yōu)化器選擇SGD(Stochastic Gradient Descent)算法,網絡參數采用glorot uniform算法進行初始化,配置學習率為0.01,batch size設置為80,訓練至網絡收斂.

        Raw Waveform CLDNN: 本文實現了文獻[9]中表現較好CLDNN_100 K的網絡,將輸出改為3個神經元,旨在探究其在地空通話中的應用效果.實驗選取幀長35 ms的音頻幀作為輸入,使用ASGD(Asynchronous Stochastic Gradient Descent)算法作為優(yōu)化器、交叉熵損失函數.

        CGRU:為驗證MFE聯合特征的有效性,除本文提出的MFE特征輸入的CGRU網絡結構之外,實驗中還對比了MFCC、Fbank單獨作為輸入特征的分類效果.實驗中均取35 ms幀長,網絡細節(jié)及參數與表1描述相同.

        此外,實驗對比了上述所有分類器原生切分效果和加入本文提出的平滑算法后的切分效果,以驗證平滑算法的有效性.

        4.3 實驗結果與分析

        4.3.1 評價標準 ROC(Receiver Operator Characteristic Curve)曲線又稱受試者工作特征曲線,是反映敏感度和特異度連續(xù)變量的綜合指標,其特點是在數據樣本不均衡的情況下可以直觀的評估分類器性能.而受限于地空通話數據特點,數據集結束幀樣本占比較低.因此,實驗使用ROC曲線作為分類器性能的評估方法.AUC (Area Under Curve)值是指ROC曲線下的面積,是定量評價分類器性能的指標.

        4.3.2 實驗結果與分析 實驗結果如表2所示,其中Accuracy指未使用本文提出的平滑算法的準確率,Accuracy-S代表平滑過后的切分準確率,Delay代表預測一幀的時間代價.實驗結果表明,本文提出的平滑算法根據模型的性能不同,將切分的準確率提升了約1%~9%不等.同時,平滑后的準確率提升幅度可以作為衡量各方法穩(wěn)定性的依據,準確率提升幅度越高,說明相鄰幀之間預測結果抖動越大,方法在測試集上越不穩(wěn)定.

        表2 實驗結果 Tab.2 Experimental result

        從實驗結果來看,基于GMM無監(jiān)督學習的webrtcvad并不適用于復雜環(huán)境的地空通話語音切分,在仿真測試集上準確率僅有83.2%,加入平滑算法后準確率約提升了5%,在不穩(wěn)定噪聲環(huán)境下預測結果抖動較大.在基于深度學習的方法中,基于LPS特征的CNN、CGRU網絡以及基于MFCC的CGRU網絡準確率在90%左右,經平滑后效果提升約3%,幀之間預測結果也存在抖動.基于Fbank特征的CGRU網絡模型準確率表現良好,AUC值達到了0.95,平滑后切分準確率達到98%.基于原始波形輸入的Raw CLDNN網絡在地空通話中準確率僅有82.3%,經平滑后準確率提升了約9%,幅度較大,ROC曲線對比圖如圖3所示.經分析,該方法使用原始采樣數據作為輸入,原始采樣數據在地空通話中受不穩(wěn)定噪聲、采樣設備、說話人等因素的影響較大,導致測試集輸出結果與訓練集差別較大,同時,該網絡參數較多,時間代價約是其他網絡的一倍,并不適用于地空通話的切分.基于MFE聯合特征的CGRU網絡在仿真測試集上表現最好,分類器準確率達到98.5%,AUC值為0.98,經平滑后切分準確率約99.3%,預測輸出較穩(wěn)定.

        圖3 ROC曲線對比圖Fig.3 Chart of ROC curve

        由圖3可知,本文提出的MEF聯合特征在音頻信息有限的單幀預測策略上具有明顯優(yōu)勢,并且CGRU網絡結構在進一步深入挖掘音頻信號隱藏信息的同時,優(yōu)化了模型參數,縮短了模型預測的時間代價,是一種穩(wěn)定、高效的地空通話實時切分方法.

        5 結 論

        本文在基于空管語音識別的安全防護系統的應用背景下,提出了一種基于CGRU神經網絡的地空通話語音實時切分的方法.該方法基于對地空通話特點的全面分析以及地空通話語音特征的深入挖掘的基礎上,經過多次對比試驗,采用MFE聯合特征輸入的方式訓練語音幀分類器.同時,在嚴格、精確地對語音幀分類情況下,為了應對信道中的不穩(wěn)定噪聲、不同說話人的語速習慣等,采用單幀預測、多幀預測結果平滑的方法,從一定程度上輔助語音切分,提高了語音切分準確率.與已有語音切分方法相比,本文提出的方法具有明顯優(yōu)勢,為后端語音降噪、語音識別、聲紋識別和語義理解等應用提供了可靠的語料輸入.但平滑算法參數需要人為參照生產環(huán)境的復雜度設置,并非自適應參數,語音幀中語種、說話人性別等信息還待進一步挖掘.因此,平滑算法自適應參數的改進,繼續(xù)挖掘語音幀中的隱藏信息將是下一步工作的重點.

        猜你喜歡
        通話音頻語音
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        《戊戌元日與友人通話》
        中華詩詞(2018年5期)2018-11-22 06:46:08
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        低成本視頻通話APP
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        男女后进式猛烈xx00动态图片| 97中文乱码字幕在线| 蜜臀av一区二区三区久久| 精品久久久久香蕉网| 精品无码国产污污污免费| aⅴ色综合久久天堂av色综合 | 亚洲三级视频一区二区三区 | 免费亚洲一区二区三区av| 欧美俄罗斯40老熟妇| 日韩免费一区二区三区在线| 国产青青草自拍视频在线播放| 精品人妻一区二区三区在线观看 | 日日噜噜夜夜爽爽| 国内精品91久久久久| 免费在线亚洲视频| 亚洲香蕉av一区二区蜜桃| 亚洲av迷人一区二区三区| 精品国产一二三产品区别在哪| 久久av无码精品一区二区三区| 在线一区二区三区免费视频观看| 亚洲一区二区在线观看网址 | 国产在线观看网址不卡一区 | 国产免费又爽又色又粗视频| 国产va免费精品观看| 国产欧美日本亚洲精品一5区| 精品一区二区三区久久| 色翁荡息又大又硬又粗视频| 亚洲欧美激情精品一区二区| 国产精品亚洲午夜不卡| 免费视频一区二区三区美女| 亚洲av无码一区二区三区网址| 亚洲国产区男人本色| 中文字幕日本女优在线观看| 白白发在线视频免费观看2| 无码人妻精品一区二区在线视频 | 麻豆成人精品国产免费| 日本在线观看不卡| 亚洲国产av一区二区不卡| 精品国产三级a∨在线| 麻豆亚洲av永久无码精品久久| 99精品视频69v精品视频免费|