曾 光,薛豪杰,毛英磊,毛凱赟
(上海船舶設(shè)備研究所,上海 201108)
VOX(Voice-Operated Transmit)也叫VAS(Voice-Activated Switch)或 VOS(Voice-Operated Switch),廣泛運用于對講機、潛水系統(tǒng)、戰(zhàn)斗機飛行員通信、坦克指揮通信等方面,以方便那些需要雙手完成任務(wù)的情況。傳統(tǒng)的對講機通信方式是PTT(Push to Talk),每次通信時都要進行手動按鍵。這樣通信時勢必影響雙手的工作。而應(yīng)用VOX技術(shù)就可無需手動按鍵,釋放雙手進行工作,帶來諸多方便。例如,潛水員水下作業(yè)時,就不太方便在工作的同時操作PTT開關(guān)。在很多情況下他們的雙手已經(jīng)被其他任務(wù)占用。因此,發(fā)展性能可靠的“Hand-free”通信系統(tǒng)在很多情況下是極其需要的[1]。
在移動通信中,VOX和噪聲消除技術(shù)的組合能大大延長電池壽命,這提供了低功耗設(shè)計的一種可能途徑。
VOX的關(guān)鍵技術(shù)即為如何在包含噪聲的信號中對有聲/無聲(語音/噪聲)進行判別。本文應(yīng)用語音信號數(shù)字處理技術(shù)上的語音信號端點識別技術(shù),提出一種穩(wěn)定簡單的方法實現(xiàn)VOX功能,并將其應(yīng)用于研發(fā)的水下通信系統(tǒng)中。
語音和噪聲的主要區(qū)別在它們的能量上。如果把一段語音通信過程,分為無話音的噪聲段和包含話音的語音段,則語音段的能量比噪聲段的大。語音段的能量是噪聲段能量疊加語音聲波能量的和。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,那么只要計算輸入信號的短時能量或短時平均幅度就能把語音段和噪聲背景區(qū)分開。而當(dāng)環(huán)境噪聲和系統(tǒng)輸入噪聲較大時,則需對信號過零率進行判斷處理。應(yīng)用語音信號的短時能量和短時過零率相結(jié)合的方法,使系統(tǒng)簡單、易于實現(xiàn)并保證有較高的精確度,穩(wěn)定性。
應(yīng)用短時分析技術(shù),將語音流分段進行處理。每一段稱為1幀,其中幀長為10~30 ms,常見20 ms。幀移為0~1/2幀,幀與幀之間平滑過渡。如圖1所示。設(shè)定語音波形的時域信號為S(n),為了減小語音幀的截斷效應(yīng),通常需加窗處理。經(jīng)過加窗分幀處理后得到第n幀語音信號如式(1)所示,其中N為1幀幀長,M為幀間重疊長度,即幀移。
圖1 語音流的幀圖形Fig.1 The frame map of voice stream
式中:n=0,T,2T…;N為幀長;T為幀移長度;W(n)為漢明窗表達式,即
因為漢明窗的主瓣最寬,旁瓣高度最低,可以有效克服泄露現(xiàn)象,具有更平滑的低通特性。第n幀語音信號Sn(m)的短時能量用En表示,由下式計算:
En是1個度量語音信號幅度值變化的函數(shù),但有個缺陷,因其在計算時用的是信號的平方,所以對高電平非常敏感。因此本設(shè)計采用1個度量語音信號幅度值變化的函數(shù),即短時平均幅度Mn來代替。它與短時能量的區(qū)別在于信號的小取樣值和大取樣值不會因取平方而造成較大差異[4]。第n幀的語音信號的短時平均幅度為:
短時過零率表示1幀語音信號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時域分析中最常用的一種。對于連續(xù)語音信號,過零意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值的符號改變稱為過零。過零率就是樣本改變符號次數(shù)。
語音信號Sn(m)的短時過零率
一般情況下,采集語音信號的最初短時段為無語音段,僅有均勻分布的噪聲信號。因此可以用最初的幾幀信號(一般為10~20幀)來計算過零率閾值ZT及能量閾值ET。并以此為基礎(chǔ)判斷信號是否為有聲/無聲。本次設(shè)計使用最初10幀樣值計算短時幅度平均值作為閾值[2]。
因為語音信號中的濁音短時平均能量的值要比清音短時平均能量值大很多,且能量集中于低頻段內(nèi)且過零率較低。而清音信號的頻段較高,能量較低類似于噪聲。若采集信號的計算值相比于初始噪聲采樣計算的閾值較大且過零率比閾值的低[5],可認為該信號含有濁音,判斷其為語音信號。
圖2 系統(tǒng)原理圖Fig.2 System principle map
根據(jù)上述原理,錄取一段語音信號進行仿真。語音信號為“船舶研究所”,采樣頻率為Fs=8 000 Hz。如圖3~圖5所示,對語音信號加入高斯白噪聲。在不同信噪仿真下,以20 ms為1幀數(shù)據(jù),1/2幀進行平滑過渡處理[6]。
從圖3到圖5的仿真結(jié)果可以看出,在信噪比較大的情況(20 dB)下,短時過門限率和平均幅度能明顯檢測出語音信號的起始點。但隨著環(huán)境噪聲增大,傳輸距離加長,信噪比降低。短時平均幅度的檢測性能不如短時過門限率有效。仿真測試中的漏判概率和信噪比如圖6所示。在實際應(yīng)用中,結(jié)合不同的過門限系數(shù),使用短時過門限率結(jié)合短時平均幅度進行語音識別檢測。
圖6 信噪比與漏判概率關(guān)系Fig.6 The relation between SNR and misdetection rate
本文介紹了傳統(tǒng)的語音信號檢測方法。結(jié)合實際應(yīng)用,提出一種檢測方法。在不同噪聲的情況下對檢測效果進行分析比較。仿真表明短時過門限率有很好的語音識別效果。以此為基礎(chǔ),應(yīng)用短時過門限率配合短時平均幅度改進語音檢測方法。
[1]張?zhí)扃?,李偉,林孝康,劉?基于數(shù)字信號處理的嗓音控制開關(guān)(VOX)算法研究[J].應(yīng)用聲學(xué),2005,24(3):157-163.ZHANG Tian-qi,LI Wei,LIN Xiao-kang,LIU Lin.Study on a voice-operated transmit(VOX)algorithm based on digital signal processing[J].Applied Acoustics,2005,24(3):157-163.
[2]張志霞,韓慧蓮,薛宏偉.語音信號端點檢測方法研究[J].太原科技,2008,(10):58-59.ZHANG Zhi-xia,HAN Hui-lian,XUE Hong-wei.Research on the endpoint detection methods of speech signals[J].TAIYUAN SCI-TECH,2008,(10):58-59.
[3]沈宏余,李英.語音端點檢測方法的研究[J].科學(xué)技術(shù)與工程,2008,8(15):4396-4397.SHEN Hong-yu,LIYing.Studyon speech endpoint detection method[J].Science Technology and Engineering,2008,8(15):4396-4397.
[4]王炳錫,屈丹.實用語音識別[M].北京:國防工業(yè)出版社,2005.
[5]劉慶升,徐宵鵬,黃文浩.一種語音端點檢測的研究[J].計算機工程,2003,29(3):120-121.LIU Qing-sheng,XU Xiao-peng,HUANG Wen-hao.Research on a speech endpoint detection method[J].Computer Engineering,2003,29(3):120-121.
[6]趙紅怡,張常年.數(shù)字信號處理及其 MATLAB實現(xiàn)[M].北京:化學(xué)工業(yè)出版社,2002.