亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種簡單快速的人聲語音自動提取方法

2021-03-26 03:29:50屈宏峰于津羅一平

電子元器件與信息技術 2021年11期

關鍵詞：信號

屈宏峰，于津，羅一平

（同方電子科技有限公司，江西九江 332000）

0 引言

在數字化靜噪控制應用領域，由于數字化增益控制影響下，在有用信號消失后，噪聲信號被放大，從而極大地影響收聽者的聽感。所以目前的接收機電臺多采用電平靜噪的方式來清除噪聲對聽感的影響[1-2]。在電平靜噪系統的控制下，可由操作者主動下發(fā)靜噪參數，并根據靜噪參數計算出一定的識別門限，來區(qū)分有用信號和無用的噪聲信號，從而將噪聲信號剔除，只對外播放有用信號，達到過濾噪聲的效果[3]。本文針對數字化電臺接收機中的人聲語音信號，給出一種無需操作員設置參數即可達到自動濾除噪聲信號的自動靜噪算法。有計算量小，無需額外的硬件支持，較好的環(huán)境適應度,無人員技術要求，操作簡單等優(yōu)點。

1 人聲語音信號的識別

1.1 人聲語音的特征

人聲語音：人聲語音是指由人通過口腔聲帶震動所發(fā)出的聲音，本質上是一種機械波。在一定的期間內，波長短則音調高，反之波長長則音調低。一般男性聲音低，波長長，女性聲音高，波長短。被稱為語音音頻，其體現在頻率體系上有其獨特的音頻特征，和固定的頻率范圍。人聲語音中話音中的大部分能量集在固定的音頻區(qū)間，這和普通的噪聲以及其他物理聲音有明顯的區(qū)別。

如圖1所示：橫坐標為時間軸，縱坐標為頻率軸。仔細觀察該頻譜瀑布圖可以看到在沒有人聲說話的時間段內。0-8K的頻率范圍內噪聲的能量分布是基本平滑的，基本是從低頻段向高頻段緩慢下滑的過程，而有人聲語音的時間段內，我們可以看到在2000Hz以內有大量的突出的黃色色塊，這表示較高的能量凸起，表示在這個頻段內有能量較高的機械波出現，也就是有人聲話音的出現。

圖1 一段人聲的頻譜瀑布能量顯示圖

從這個瀑布圖中我們可以發(fā)現，人聲語音在頻譜的分布上絕大部分能量集中在300Hz～2000Hz的頻譜范圍內。這是一個非常明顯的數據特征，在經過大量數據的對比之后我們確定。此數據圖特征并非為孤例數據，而是真實反映出人聲語音特點的統計結論。

1.2 利用能量分布規(guī)律判別語音

具有其獨特的音頻特征，其話音中的大部分能量集在固定的音頻區(qū)間，這和普通的噪聲有明顯的區(qū)別，有這個特性，我們在區(qū)分噪聲和人聲語音的時候可以不采用復雜的識別算法，轉而采用簡單的特征識別方法，對輸入的聲音文件進行實時快速傅里葉變化，根據在固定區(qū)域內聲音能量的占比，通過多次判定，就可以快速的得出信號是否為語音信號的判斷[4-5]。

因此我們可以設計一個算法，通過對聲音信號的數字化頻譜的能量分布統計，來識別人聲語音信號和其他噪聲。具體的算法流程如圖2所示。

如圖2流程圖所示：算法的起始為數字化的音頻信號的輸入，在實際程序中采用的輸入音頻的頻率為16KHz。在獲得了數字化的音頻信號后，我們需要對輸入的音頻信號進行實時的快速傅里葉變化，這就用上了快速傅里葉變化函數。實際程序中采用64點的一幀的快速傅里葉變化，針對16KHz的音頻進行頻譜分析，即每次快速傅里葉變化的時間為：64/1600=4ms。整個識別程序建立在每4ms一次的傅里葉變化的頻譜數據上。

圖2 算法流程圖

在獲得了傅里葉變化的頻譜數據后，就需要用上分布能量統計函數對傅里葉變化后的頻譜數據進行分布能量統計計算，將其結果送入信號判定函數進行判定和分辨。由于每幀傅里葉變化的頻譜數據占時較短，誤判的可能性較高，所以在這個函數中計算完成譜數據能量統計后，需要進行多次結果的緩沖平滑工作，用以減少誤判，增加成功率[6]。

判定的結果送入輸出控制函數，輸出控制函數需要持續(xù)從信號判定函數獲取判定數值，當持續(xù)一段時間判定值均為某個信號時，輸出控制函數將通過最終判定函數控制語音信號的輸出和關斷。

由于判定結果需要多次判定才能最終得出結果，所以輸入的人聲語音持續(xù)的時間有一定的要求，不能低于200ms，即0.2秒時長。時間過短會被程序認定為突發(fā)噪聲而略過。

1.3 算法的實際使用效果

此方式的算法可以兼顧識別的效率和速度，在快速傅里葉變化和緩沖平滑判斷等算法都有成熟的計算庫的情況下，編程極為簡單，實際的調試的過程需要花費一定的時間，在針對地設置好各項參數后，通過輸出控制函數的累積判定方式也可以最大限度地降低誤判。

實際軟件完成后，設置了各種長度的人聲語音各100段的數據下進行測試，測試的數據包括在各種長度的人聲語音情況下的提取成功率，以及提取的語音數據前后是否完整，提取的語音數據前后預留的緩沖噪聲的時長是否穩(wěn)定等等，測試結果的簡表見表1所示。

表1 語音識別效果表

此算法由于采用的是能量占比的特征識別，其并不需要人聲語音信號有太高的信噪比，也不需要較高人聲信號的清晰度，實際實驗證明，在較低的信噪比和語音清晰度下，此算法仍然能準確地提取出語音部分的數據。圖3上方為得低信噪比和低語音清晰度的語音在噪聲環(huán)境的頻譜瀑布圖，圖3下方為經過算法后中被提取出來的頻譜瀑布圖：

圖3 低信噪比和低清晰度下的人聲語音提取效果

通過各種長度的人聲語音各100段的識別效果，和低信噪比和低語音清晰度情況下的識別效果，可以看出是此算法對人聲語音的識別成功率極高，識別出的人聲語音的前置緩沖保持時間和后置緩沖保持時間比較穩(wěn)定，適合作為提取音頻素材。

2 結論

本文通過對人聲語音信號的識別實現了數字化人聲語音的提取算法，能有效的提高監(jiān)聽人員的聽感，降低長時間噪聲對監(jiān)聽人員的聽力損壞，能有效的提高監(jiān)聽的語音識別度，對于各種需要在長時間的監(jiān)控數據中提取人聲語音的場合來說具有相當的便捷，從實驗測試結果來看，所設計的提取算法，靈敏度高，成功率高，表明用該方法提取數字人聲語音是可行的。算法具有簡單、計算量小的優(yōu)點 ,便于程序的實現。所使用的算法不需要額外的特征庫和支持庫，可以簡單便捷地嵌入到各種應用程序中。