亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

飛機(jī)駕駛艙噪聲環(huán)境下的飛行員語音端點檢測

2018-01-19 00:53:56,,,

計算機(jī)工程 2018年1期

, ,,

(上海交通大學(xué) a.航空航天學(xué)院; b.電子信息與電氣工程學(xué)院,上海 200240)

0 概述

民用航空飛行安全是民用航空器有效運行的基礎(chǔ)[1]。當(dāng)前,航空人為因素已經(jīng)成為導(dǎo)致飛行事故最為主要的因素。飛機(jī)駕駛艙中的人為因素研究作為航空人為因素研究的重點,需要準(zhǔn)確地識別和測量出飛行員的行為或動作,例如通信、導(dǎo)航、執(zhí)行檢查單等,從而評價飛行員的工作負(fù)荷,對飛機(jī)駕駛艙的設(shè)計或飛行員操作流程進(jìn)行改進(jìn),避免由于飛行員任務(wù)負(fù)荷過重導(dǎo)致的人為操作錯誤[2]。

飛行員語音信息是分析飛行員行為或動作的重要依據(jù),利用語音端點檢測(Speech Endpoint Detection,SED)技術(shù)可以提取語音記錄中的飛行員語音[3]。然而飛機(jī)駕駛艙中的噪聲環(huán)境十分復(fù)雜,包括發(fā)動機(jī)噪聲、飛機(jī)飛行時外部氣流紊流聲、機(jī)艙內(nèi)被操縱器件的活動聲、空調(diào)噪聲等,使得在低信噪比的情況下,基于線譜頻率、全帶寬信號能量、低頻帶信號能量或過零率的傳統(tǒng)語音端點檢測方法的檢測效果急劇下降[4]。

有研究表明,語音的共振峰頻率信息能更有效地體現(xiàn)語音信號的時變特性[5]?；诖私Y(jié)論,文獻(xiàn)[6]利用譜減法進(jìn)行降噪,并將降噪后語音的子帶譜熵作為判決參數(shù)實現(xiàn)語音端點檢測。但是譜減法比較適用于噪聲平穩(wěn)的條件,其對于非平穩(wěn)的、復(fù)雜的航空背景噪聲抑制能力較弱,且在降噪過程中會產(chǎn)生音樂噪聲[7]。子帶譜熵能有效地區(qū)分語音和噪聲,但在有嘈雜人聲時性能較差,而此時語音與噪聲的能量仍是超過噪聲的,因此,文獻(xiàn)[8]引入一種結(jié)合熵與能量的判決參數(shù),但該文獻(xiàn)方法在低信噪情況下性能不穩(wěn)定。

針對飛機(jī)駕駛艙中的強(qiáng)噪聲環(huán)境,本文結(jié)合最優(yōu)改進(jìn)對數(shù)譜幅度估計(Optimally Modified Log-Spectral Amplitude Estimator,OM-LSA)語音增強(qiáng)算法與Teager能量算子(Teager Energy Operator,TEO),提出一種魯棒語音端點檢測方法。首先通過OM-LSA算法對含噪語音數(shù)據(jù)進(jìn)行初步降噪處理;然后利用TEO對噪聲的抑制作用進(jìn)一步濾除殘留的噪聲,降低其對語音端點判決的干擾;最后整合降噪后語音的能量值與譜熵得到端點檢測的判決參數(shù),實現(xiàn)強(qiáng)航空背景噪聲環(huán)境下對飛行員語音端點的有效檢測。

1 檢測原理

1.1 OM-LSA算法

OM-LSA算法作為一種單通道頻域語音增強(qiáng)算法,能夠適應(yīng)多種噪聲環(huán)境,在保護(hù)較弱語音信號分量的同時,可避免音樂噪聲的產(chǎn)生。該算法對于低輸入信噪比和非平穩(wěn)噪聲尤其有效[7]。假設(shè)語音信號為s(n),疊加一個不相關(guān)的噪聲信號u(n),構(gòu)成含噪語音信號y(n):

y(n)=s(n)+u(n)

(1)

其中,s(n)和u(n)是統(tǒng)計獨立的。

對含噪語音信號y(n)加窗分幀處理后,得到第i幀語音信號yi(m),通過短時傅里葉變換求yi(m)的傅里葉變換系數(shù),如式(2)所示。

Y(k,i)=S(k,i)+U(k,i)

(2)

其中:k為頻率分量;i為幀數(shù)。

OM-LSA算法是基于最小均方誤差的對數(shù)幅度譜估計器,對于符合高斯分布的語音和噪聲信號,可以通過式(3)估計語音信號的傅里葉變換系數(shù)。

(3)

語音存在時的增益函數(shù)GH1可以根據(jù)下式估計得到:

(4)

其中,υξγ/(1+ξ)。

(5)

1.2 Teager能量算子

TEO是一個強(qiáng)大的非線性算子,可以跟蹤調(diào)制能量并識別瞬時幅度和頻率[10-11]。TEO對噪聲具有抑制作用,可以進(jìn)一步濾除含噪語音信號經(jīng)OM-LSA算法處理后殘留的噪聲[12]。

在離散時間條件下,s(n)的TEO定義如式(6)所示,含噪語音信號y(n)的TEO如式(7)所示。

Ψd[s(n)]=s(n)2-s(n+1)s(n-1)

(6)

Ψd[y(n)]=Ψd[s(n)]+Ψd[u(n)]+

(7)

從上述推導(dǎo)可以看出,TEO主要提取的是含噪語音信號中語音的能量。圖1顯示了含噪語音信號y(n)和Ψd[y(n)]的語譜圖,y(n)的信噪比為10 dB。

圖1 語譜圖對比

對比語譜圖可以看出,TEO不僅抑制了噪聲能量,并且在保留語音信號能量的同時,突出了語音的共振峰信息。

1.3 短時能量與子帶譜熵

設(shè)各幀語音信號yi(m)的幀長為N,短時能量指各語音幀的能量,其定義如下:

(8)

圖2為y(n)和Ψd[y(n)]的短時能量曲線?？梢钥闯?y(n)的能量值是噪聲能量與語音能量的疊加,而Ψd[y(n)]的能量值曲線能較好地跟蹤純凈語音信號能量的變化,且在噪聲段更平滑。

圖2 短時能量曲線對比

譜熵反映了離散信源在頻域內(nèi)幅值分布的無序性。將熵值作為特征參數(shù)進(jìn)行端點檢測的實驗結(jié)果表明,語音的熵與噪聲的熵存在較大區(qū)別[13]。

子帶譜熵的提出是為了消除每一條譜線幅值受噪聲影響的問題,其將每幀語音信號的全頻帶均勻地分成Nb個子帶,語音信號第i幀的第w個子帶的能量譜為:

(9)

相應(yīng)地,每幀各子帶的歸一化概率密度pb(w,i)和每幀的子帶譜熵Hb(i)分別為:

(10)

(11)

圖3為y(n)和Ψd[y(n)]的子帶譜熵曲線?？梢钥闯?當(dāng)語音信噪比下降時,子帶譜熵對語音和噪聲的區(qū)分性也相應(yīng)下降。

圖3 子帶譜熵曲線對比

1.4 端點檢測方法

本文結(jié)合OM-LSA語音增強(qiáng)算法和TEO對飛行員語音記錄中的航空背景噪聲進(jìn)行抑制,然后計算降噪后語音信號的短時能量與子帶譜熵。從圖2和圖3可以看出,在語音中的有話區(qū)間,短時能量曲線是向上凸起的,而子帶譜熵曲線卻相反,其在有話區(qū)間向下凹陷。若將兩者的比值作為雙門限判決的參數(shù),則可以放大有話區(qū)間的判決參數(shù)值,從而實現(xiàn)強(qiáng)航空背景噪聲環(huán)境下的飛行員語音端點檢測。基于上述分析,本文方法的檢測過程如圖4所示。

圖4 語音端點檢測過程

(12)

圖5為y(n)和Ψd[y(n)]的歸一化能熵比曲線?？梢钥闯?基于TEO的能熵比曲線增強(qiáng)了語音與噪聲段的區(qū)分性,且在噪聲段更平滑。

圖5 能熵比曲線對比

利用能熵比檢測語音端點的主要步驟如下[14]:

1)選取一個較高的閾值(門限)T2對EERTEO(i)進(jìn)行一次粗判,高于T2的肯定是語音。

2)選取一個較低的閾值(門限)T1,從1)中的交匯點向兩旁擴(kuò)展搜索,分別找到EERTEO(i)與T1相交的2個點,將其判定為語音的起止點。

2 實驗與結(jié)果分析

2.1 實驗場景及數(shù)據(jù)

實驗中的飛行員語音記錄采集自如圖6所示的駕駛艙中。

圖6 實驗場景

在飛行過程中,通過頭戴式麥克風(fēng)采集飛行員語音,采樣率為8 kHz,采樣精度為16 bit,幀長選擇25 ms,幀移為10 ms。實驗對10段語音數(shù)據(jù)(總時長為48 min)進(jìn)行檢測,計算檢測正確率與錯誤率的平均值。

2.2 實驗方法

首先利用OM-LSA語音增強(qiáng)算法對飛機(jī)駕駛艙中的語音記錄做增強(qiáng)處理,然后對基于短時能量與過零率比值的檢測算法(EZR)[15]、基于短時能量與譜熵比值的檢測方法(EER)以及本文方法進(jìn)行比較,具體過程如圖7所示。

圖7 實驗過程

2.3 評價指標(biāo)

對飛機(jī)駕駛艙中的飛行員語音記錄進(jìn)行人工標(biāo)定起止點,將算法檢測結(jié)果與手工標(biāo)定的起止點進(jìn)行比較,通過以下3個客觀評價指標(biāo)來評價端點檢測方法的性能[5]:

1)語音幀檢測正確率,如式(13)所示。

PS=TS/frameS

(13)

其中:TS為語音信號中被正確判斷為語音幀的幀數(shù);frameS為手動標(biāo)定為語音幀的總數(shù)。

2)噪聲幀檢測正確率,如式(14)所示。

PN=TN/frameN

(14)

其中:TN為語音信號中被正確判斷為噪聲幀的幀數(shù);frameN為手動標(biāo)定為噪聲幀的總數(shù)。

3)檢測錯誤率,如式(15)所示。

PF=(FN+FS)/(frameS+frameN)

(15)

其中:FN為被錯誤判斷為語音幀的噪聲幀數(shù);FS為被錯誤判斷為噪聲幀的語音幀數(shù)。

2.4 結(jié)果分析

圖8(a)和圖8(b)為一段原始飛行員語音數(shù)據(jù)及其語譜圖,在136 Hz～2 170 Hz的頻率范圍內(nèi),語音信號的頻譜被噪聲的頻譜遮掩,在2 170 Hz～4 000 Hz頻率范圍內(nèi),可見語音信號的頻譜。圖8(c)和圖8(d)為語音經(jīng)過OM-LSA算法初步降噪后的語音數(shù)據(jù)及其語譜圖,其中中低頻的噪聲能量被濾除,可見語音信號的頻譜,但在2 170 Hz～4 000 Hz頻率范圍內(nèi)仍有能量較小的噪聲殘留。利用TEO進(jìn)一步降噪后的端點檢測結(jié)果標(biāo)記在圖8(c)中。

圖8 語音端點檢測結(jié)果

對飛行員語音數(shù)據(jù)集進(jìn)行測試,得到的平均檢測正確率和錯誤率如表1所示。可以看出,本文方法在對語音幀和噪聲幀檢測的平均正確率上,均高于EZR和EER方法。

表1 3種方法的檢測性能對比 %

3 結(jié)束語

提取飛行員語音記錄中的飛行員語音信息,對于分析飛行員的行為或動作起到關(guān)鍵的作用,也是駕駛艙人為因素研究的重點。針對飛機(jī)駕駛艙中的強(qiáng)噪聲環(huán)境,以及基于能量參數(shù)和基于頻譜熵參數(shù)方法在低信噪比情況下的局限性,本文提出一種結(jié)合OM-LSA語音增強(qiáng)算法與TEO的語音端點檢測方法。首先利用OM-LSA算法對飛行員語音數(shù)據(jù)初步降噪;然后通過TEO做進(jìn)一步的噪聲濾除,減少其對端點檢測的干擾;最后將降噪后語音的能量與頻譜熵比值作為端點檢測的判決參數(shù),實現(xiàn)強(qiáng)航空背景噪聲下的飛行員語音端點檢測。實驗結(jié)果表明,本文方法對語音幀和噪聲幀的平均檢測正確率可達(dá)95.6%和92%,能準(zhǔn)確獲取飛行員語音信息。后續(xù)工作將改進(jìn)端點檢測過程中所使用的判決參數(shù),進(jìn)一步提高檢測正確率。

[1] KRAUSE S.Aircraft Safety:Accident Investigations,Analyses,& Applications[M].[S.l.]:McGraw-Hill Professional,2003.

[2] SHAPPELL S A,WIEGMANN D A.A Human Error Approach to Aviation Accident Analysis:The Human Factors Analysis and Classification System[M].[S.l.]:Ashgate Publishing,Ltd.,2012.

[3] KOLA J,ESPY-WILSON C,PRUTHI T.Voice Activity Detection[EB/OL].[2016-10-10].http://ece.umd.edu/merit/archives/merit2011/merit_fair11_reports/report_Kola.pdf.

[4] BENYASSINE A,SHLOMOT E,SU H Y,et al.ITU-T Recommendation G.729 Annex B:A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications[J].IEEE Communications Magazine,1997,35(9):64-73.

[5] WANG K C,TASI Y H.Voice Activity Detection Algorithm with Low Signal-to-Noise Ratios Based on Spectrum Entropy[C]//Proceedings of the 2nd Inter-national Symposium on Universal Communication.Washington D.C.,USA:IEEE Press,2008:423-428.

[6] JIN Li,CHENG Jiang.An Improved Speech Endpoint Detection Based on Spectral Subtraction and Adaptive Sub-band Spectral Entropy[C]//Proceedings of Inter-national Conference on Intelligent Computation Tech-nology and Automation.Washington D.C.,USA:IEEE Press,2010:591-594.

[7] COHEN I,BERDUGO B.Speech Enhancement for Non-stationary Noise Environments[J].Signal Processing,2001,81(11):2403-2418.

[8] HUANG L,YANG C.A Novel Approach to Robust Speech Endpoint Detection in Car Environments[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,2000:1751-1754.

[9] 劉鳳增,李國輝,李博,等.OM-LSA和小波閾值去噪結(jié)合的語音增強(qiáng)[J].計算機(jī)科學(xué)與探索,2011,5(6):547-552.

[10] KAISER J F.On a Simple Algorithm to Calculate the Energy of a Signal[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1990:381-384.

[11] 霍鋮宇,黃曉林,寧新寶,等.基于Teager算子的短時HRV樣本熵算法[J].計算機(jī)工程,2012,38(23):281-283.

[12] 李杰,周萍,杜志然.短時TEO能量在帶噪語音端點檢測中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2013,49(12):144-147.

[13] SHEN J,HUNG J,LEE L.Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of ICSLP’98.Sydney,Australia:Australian Speech Science and Technology Association,1998:232-235.

[14] LI X,LI G,LI X.Improved Voice Activity Detection Based on Iterative Spectral Subtraction and Double Thresholds for CVR[C]//Proceedings of 2008 Workshop on Power Elec-tronics & Intelligent Transportation System.Washington D.C.,USA:IEEE Press,2008:153-156.

[15] 張徽強(qiáng).帶噪語音信號的端點檢測和聲韻分離[D].長沙:國防科學(xué)技術(shù)大學(xué),2005.