摘" 要: 在強噪環(huán)境下,為了獲取高質(zhì)量、低失真度的數(shù)字音頻信號,提出一種強噪環(huán)境下分頻段數(shù)字音頻信號精細化采集方法。通過麥克風(fēng)設(shè)備獲取音頻信號,利用LM4550芯片對其作采樣、編碼等處理后生成數(shù)字音頻信號,基于AC?97單元接收數(shù)字音頻信號,利用頻段分割器對其作頻帶分解,獲得互不重疊子頻段數(shù)字音頻信號。采用多窗譜譜減法對其去噪,利用數(shù)據(jù)通信接口將其傳輸給LM4550芯片,在完成模擬信號轉(zhuǎn)換后,通過耳機輸出,實現(xiàn)數(shù)字音頻信號精細化采集。實驗結(jié)果表明,該方法處理后的各子頻段數(shù)字音頻信號有用信息得以完整保留,并提高了信號波形的規(guī)整度和規(guī)律性,強噪聲環(huán)境下數(shù)字音頻信號的PESQ指標(biāo)達到4.08以上,最大失真度為3.74%。
關(guān)鍵詞: 強噪環(huán)境; 分頻段; 數(shù)字音頻信號; FPGA; 頻段分割器; 多窗譜譜減法; 通信接口; 模擬信號
中圖分類號: TN914?34" " " " " " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " " " " 文章編號: 1004?373X(2024)11?0064?05
Research on refined acquisition of divided frequency digital audio
signals in strong noise environment
HA Zheng
(School of Music, Shanxi University, Taiyuan 030006, China)
Abstract: In order to obtain digital audio signals with high?quality and low distortion in a strong noise environment, a refined acquisition method for divided frequency digital audio signals in a strong noise environment is proposed. Audio signals are obtained by the microphone device. Chip LM4550 is used for the sampling, encoding and other processing of the obtained audio signals to generate digital audio signals, which is received on the basis of AC?97 units. Frequency band dividers are utilized to perform frequency band decomposition to obtain non overlapping sub band digital audio signals, which are then denoised by multi?window spectral subtraction, and then transmitted to the chip LM4550 by a data communication interface. After completing the analog signal conversion, it is output by headphones to achieve refined digital audio signal acquisition. The experimental results show that the useful information of various sub frequency bands of digital audio signals processed by the proposed method can be preserved fully, and the regularity of the signal waveform can be improved. In addition, the index PESQ (perceptual evaluation of speech quality) of digital audio signals in a strong noise environment reaches 4.08 or above, with a maximum distortion of 3.74%.
Keywords: strong noise environment; divided frequency; digital audio signal; FPGA; frequency band splitter; multi?window spectral subtraction; communication interface; analog signal
0" 引" 言
音頻是實現(xiàn)信息交互的重要手段[1?2],影響著人類情感、心理狀態(tài)、創(chuàng)造力等各個方面。數(shù)字音頻信號是一種以數(shù)字方式記錄、存儲、傳輸、播放和處理的音頻信號[3],能夠提供高清晰度、無損的音頻質(zhì)量,相比模擬音頻信號,聲音更為真實、細膩。環(huán)境噪聲是導(dǎo)致數(shù)字音頻信號質(zhì)量下降的重要因素[4],不僅可以降低音頻信號細節(jié)信息的分辨率,甚至?xí)斐梢纛l信號失真等問題。對數(shù)字音頻信號頻段分割[5],并有針對性地處理各個頻段音頻信號,是提升數(shù)字音頻信號采集效果的有效措施。
文獻[6]在語音圖信號構(gòu)建的基礎(chǔ)上,采用圖后置濾波方法對其進行處理,以提高強噪聲環(huán)境下語音信號采集質(zhì)量,受噪聲特性、語音信號復(fù)雜度等因素影響,該方法無法實現(xiàn)噪聲的徹底去除。文獻[7]通過變換域稀疏度量實現(xiàn)語音信號最佳變換階數(shù)的確定后,采用分數(shù)傅里葉變換實現(xiàn)噪聲與語音信號的分離,但該方法具有計算難度高的問題。文獻[8]利用自適應(yīng)噪聲分布網(wǎng)絡(luò)語音增強模型處理語音信號,提高音頻信號采集效果,該方法的音頻信號去噪效果受網(wǎng)絡(luò)參數(shù)影響較大。文獻[9]利用構(gòu)建的LCLED模型對語音信號進行增強處理,由于該模型復(fù)雜度較高,增加了語音信號處理的難度。
鑒于以上方法存在的問題,本文研究了一種強噪環(huán)境下分頻段數(shù)字音頻信號精細化采集方法,以實現(xiàn)噪聲的有效抑制,提高數(shù)字音頻信號的采集效果。
1" 分頻段數(shù)字音頻信號精細化采集
1.1" 數(shù)字音頻信號采集架構(gòu)
數(shù)字音頻信號采集結(jié)構(gòu)如圖1所示,以基于FPGA的XC6SLX458芯片作為數(shù)字音頻信號采集模塊的主控芯片,該芯片采取編程方式完成數(shù)字音頻信號的獲取、處理與輸出。
利用麥克風(fēng)設(shè)備完成不同音頻信號的獲取,通過對其轉(zhuǎn)換處理,得到不間斷電信號后,再對其作頻段分割、去噪等處理后,經(jīng)過耳機設(shè)備即可獲得處理后的數(shù)字音頻信號。LM4550芯片具有音頻信號采樣、編碼等處理功能,將麥克風(fēng)獲取的音頻信號作為其輸出,可生成數(shù)字音頻信號。FPGA部分主要由三部分構(gòu)成,分別為AC?97單元、AC?97 Commands命令以及頻段分割器,其中前者可實現(xiàn)256 bit數(shù)字音頻信號的接收,同時配備有PCM數(shù)據(jù)串口;中間部分在完成初始化指令操作的同時,可完成放大器增益的設(shè)定等;后者對生成的數(shù)字音頻信號進行頻段分割后,采用多窗譜譜減法對各子頻段數(shù)字音頻信號進行降噪?;贔PGA的主控芯片利用配置接口向LM4550芯片發(fā)送Verilog程序,以實現(xiàn)對其有效控制;LM4550芯片經(jīng)由數(shù)據(jù)通信接口建立其與FPGA之間的關(guān)聯(lián),實現(xiàn)編碼后音頻信號的傳輸。頻帶分割器對LM4550芯片處理的數(shù)字音頻信號進行處理后,利用數(shù)據(jù)通信接口將其傳輸給LM4550芯片,在完成模擬信號轉(zhuǎn)換后,利用耳機完成音頻信號的輸出。
1.2" 數(shù)字音頻信號處理
采用頻段分割器對數(shù)字音頻信號進行處理,通過將其從時域轉(zhuǎn)換到頻域,從而實現(xiàn)音頻信號的分解,得到互不重疊的子頻段,再對各子頻段信號去噪處理,降低強噪聲對數(shù)字音頻信號采集效果的影響。
1.2.1" 頻段分割器設(shè)計
將高、低、帶通濾波器組合,利用構(gòu)建的濾波器組即可實現(xiàn)數(shù)字音頻信號的濾波處理,但是,若干濾波器的簡單組合使用會使其頻響特性在某些頻率點上出現(xiàn)累加效應(yīng),導(dǎo)致該頻段增益變大或減小。因此,根據(jù)頻段分割理論設(shè)計頻段分割器,以實現(xiàn)對數(shù)字音頻信號分頻段處理,其基本結(jié)構(gòu)如圖2所示。
該結(jié)構(gòu)圖中共包含兩個LR分割器,數(shù)字音頻信號經(jīng)過LR分割器A分解后,其低頻部分作為動態(tài)范圍處理器A的輸入,而將其高頻部分輸入到LR分割器B中進行進一步分解后,由動態(tài)范圍處理器B處理其低頻段信號,由動態(tài)范圍處理器C處理其高頻段信號,對各頻段數(shù)字音頻信號處理結(jié)果作拼接處理,即可完成強噪聲環(huán)境下分頻段數(shù)字音頻信號的精細化采集。該頻段分割器含有兩個分割點,且可對各點頻率進行自適應(yīng)更新。將[N-1]個LR分割器串聯(lián)在一起,并將后一個LR分割器級聯(lián)在上一個LR的高通濾波器上即可實現(xiàn)[N]路分割器的構(gòu)建。動態(tài)范圍處理器的基本結(jié)構(gòu)如圖3所示。
動態(tài)范圍處理器含有兩個鏈路通道,將延時器設(shè)計在其主鏈路中,通過引入時間延遲實現(xiàn)數(shù)字音頻信號的前饋控制;動態(tài)范圍處理器利用輔助鏈路實現(xiàn)其輸入信號作全波整流、包絡(luò)檢測以及增益控制處理,通過計算兩路處理結(jié)果的乘積確定處理器輸出值,即[xn-D?gn],其中延時量用[D]描述。
1.2.2" 基于多窗譜譜減法的分頻段數(shù)字音頻信號去噪
在完成數(shù)字音頻信號分頻后,采用多窗譜譜減法對各頻段數(shù)字音頻信號進行處理,通過對衰減參數(shù)進行自適應(yīng)優(yōu)化,降低噪聲水平,提高強噪聲環(huán)境下音頻信號質(zhì)量,達到有用數(shù)字音頻信號最大程度保留的目的[10]。該方法利用若干個正交窗進行直接譜的計算后,再通過計算其均值完成噪聲譜值的確定。
基于多窗譜譜減法[11]的分段數(shù)字音頻信號去噪流程如下。
對各子頻段數(shù)字音頻信號進行分幀處理,得到[xim],對其作快速傅里葉變換[12?13],確定其幅度、相位譜,分別用[xik]、[θik]表示,連續(xù)[M]幀數(shù)字音頻信號經(jīng)過平滑后,分別計算[i]幀音頻信號第[k]條譜線的幅度譜均值和功率譜密度均值,分別表示為[Xik]、[Pyk,i],計算公式為:
[Xik=j=-MMXi+jk2M+1] (1)
[Pyk,i=j=-MMPk,i+j2M+1] (2)
各頻段數(shù)字音頻信號中所含噪聲的功率譜密度均值[Pnk]通過式(3)進行求解:
[Pnk=i=1LPyk,il] (3)
式中[l]表示不存在數(shù)字音頻信號的總幀量。
基于譜減關(guān)系,對該頻段增益因子[gk,i]進行確定:
[gk,i=Pyk,i-αPykPyk,i," "Pyk,i≥αPnkPnk?βPyk,i," " "Pyk,ilt;αPnk] (4)
式中:[α]為衰減系數(shù);[β]為增益系數(shù)。譜減效果取決于參數(shù)[α],令其為定值,無法達到最佳譜減效果。通過式(5)完成最佳[α]的確定:
[α=2.8-SNR25," "SNR≥02.8-SNR10," "SNRlt;0] (5)
式中[SNR]表示含噪數(shù)字音頻信號信噪比。
2" 實驗分析
在實驗中,以英語口語語音為實驗對象,利用麥克風(fēng)設(shè)備分別對10 dB、0 dB、-10 dB、-20 dB信噪比環(huán)境下的300名學(xué)生英語口語語音進行錄制,構(gòu)建樣本數(shù)據(jù)集,數(shù)據(jù)集中的英語口語語音信號總量為3 000組,設(shè)定實驗硬件環(huán)境為Linux操作系統(tǒng),CPU、GPU分別為Intel Core i7、NVIDIA GeForce GTX 1080,將研究方法應(yīng)用到強噪聲環(huán)境分頻段數(shù)字音頻信號精細化采集中,分析其數(shù)字音頻信號采集性能。
0 dB噪聲環(huán)境錄制的“This is a pretty girl”英語口語語音信號采用了Matlab/Simulink作為仿真軟件,原始波形如圖4所示。采用本文方法對該音頻信號進行頻段分割,音頻信號分頻結(jié)果如圖5所示。
分析圖4、圖5可知,原始音頻信號波形呈現(xiàn)出較高的不規(guī)律性,有用音頻信號淹沒在大量噪聲之中,導(dǎo)致音頻信號質(zhì)量較差。應(yīng)用本文方法對該英語口語語音進行頻段分割,可得到高、中、低三個不同子頻段,英語口語語音信號的高頻段部分反映英語口語語音的諧波成分等,語音信號能量較低,且分布在2 000~8 000 Hz頻率范圍之內(nèi);中頻段部分呈現(xiàn)語音錄制者的音調(diào)、音色等信息,語音信號能量基本位于500~2 000 Hz頻率之間;低頻部分呈現(xiàn)英語口語語音的重低音、節(jié)奏感,其能量呈集中性分布,具有振幅高的特點。各頻段語音信號中覆蓋有大量噪聲,將嚴重影響該英語口語語音信號的輸出效果。
為提高數(shù)字音頻信號采集質(zhì)量,需對各頻段語音信號降噪處理。通過對各頻段英語口語語音信號處理結(jié)果進行分析,驗證本文方法的數(shù)字音頻信號采集能力,實驗結(jié)果如圖6所示。
分析圖6可知,各頻段英語口語語音信號波形呈現(xiàn)出較高的不規(guī)律性,有用音頻信號淹沒在大量噪聲之中,導(dǎo)致音頻信號質(zhì)量較差。采用本文方法對分頻段英語口語語音信號進行處理,可以達到提升語音信號質(zhì)量的目的,有用音頻信號特征得以完整保留的同時,語音信號波形更加規(guī)整,且具有更明顯的規(guī)律性。實驗結(jié)果表明,本文方法的噪聲抑制能力顯著,數(shù)字音頻信號質(zhì)量獲得顯著提升。
為進一步分析本文方法的數(shù)字音頻信號采集性能,在實驗數(shù)據(jù)集中任意選取4種不同信噪比語音信號各5組,應(yīng)用本文方法對其進行處理,并與常規(guī)譜減法處理結(jié)果進行對比,兩種方法下的語音信號信噪比均值對比結(jié)果如表1所示。
分析表1可知,應(yīng)用常規(guī)譜減法對10 dB、0 dB、-10 dB、-20 dB四種不同地鐵環(huán)境下采集的語音信號進行去噪處理,對應(yīng)數(shù)字音頻信號信噪比均值分別為24.46 dB、14.52 dB、-0.84 dB、-11.85 dB;相比于常規(guī)譜減法處理結(jié)果,本文方法在處理0 dB、-10 dB、-20 dB地鐵環(huán)境語音信號上更具優(yōu)勢,處理后的數(shù)字音頻信號信噪比獲得顯著提升,音頻信號質(zhì)量更突出,對10 dB地鐵環(huán)境下語音信號處理與常規(guī)譜減法相差不大。實驗結(jié)果表明,本文方法對強噪聲環(huán)境下數(shù)字音頻信號采集更具優(yōu)勢。
PESQ(Perceptual Evaluation of Speech Quality)是一種用于評估語音質(zhì)量的感知評估方法,通過對比原始語音信號和經(jīng)過處理后的語音信號的差異,實現(xiàn)數(shù)字音頻信號質(zhì)量的評估。分別應(yīng)用本文方法、文獻[6]方法、文獻[7]方法對不同噪聲環(huán)境下的數(shù)字音頻信號進行采集,通過對不同方法下的數(shù)字音頻信號失真度、PESQ指標(biāo)結(jié)果進行分析,驗證本文方法的數(shù)字音頻信號采集效果,實驗結(jié)果如表2所示。
分析表2可知,應(yīng)用本文方法對不同噪聲環(huán)境下的數(shù)字音頻信號進行采集,PESQ指標(biāo)達到4.08以上,該指標(biāo)取值區(qū)間為[-0.5,4.5],其值越大,表明采集后的數(shù)字音頻信號與原始音頻信號差異越大,音頻信號質(zhì)量越高。另外,音頻信號的失真度值介于[1.2,3.74]區(qū)間內(nèi),數(shù)值越小表示音頻信號的質(zhì)量越好。而文獻方法采集的數(shù)字音頻信號PESQ指標(biāo)值低,且失真度值高,數(shù)字音頻信號采集質(zhì)量低于本文方法。實驗結(jié)果表明,本文方法可對強噪聲環(huán)境下的數(shù)字音頻信號進行精細化采集,且能取得顯著的音頻信號采集效果。
3" 結(jié)" 論
本文研究了強噪環(huán)境下分頻段數(shù)字音頻信號精細化采集方法,通過對不同噪聲環(huán)境下英語口語語音信號采集效果進行分析,驗證其數(shù)字音頻信號采集性能。實驗結(jié)果表明:
1) 本文方法可實現(xiàn)數(shù)字音頻信號頻段分割,處理后的各子頻段語音信號噪聲抑制效果突出,音頻信號波形規(guī)律性強。
2) 本文方法更適合對0 dB、-10 dB、-20 dB強噪聲環(huán)境下的數(shù)字音頻信號進行處理。
3) 本文方法采集的數(shù)字音頻信號PESQ指標(biāo)高、失真度僅為3.74%,采集效果突出。
參考文獻
[1] 何選森,徐麗,樊躍平.PCD算法對音頻信號降噪的參數(shù)選擇[J].西安理工大學(xué)學(xué)報,2021,37(2):215?221.
[2] 任貴珊,孫海洲,王素珍,等.超高清HDMI接口音頻測試信號源系統(tǒng)實現(xiàn)[J].電視技術(shù),2022,46(2):78?85.
[3] 孫夢青.基于時頻域信息提取的數(shù)字音頻樂音識別仿真[J].計算機仿真,2021,38(7):415?418.
[4] 彭月,蒙祖強,楊麗娜.一種基于GRU神經(jīng)網(wǎng)絡(luò)的語音增強方法[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2021,46(6):1533?1548.
[5] 趙清穎,殷福亮,陳喆.基于子帶處理與Volterra自適應(yīng)濾波的廣播音頻信號相似性檢測方法[J].信號處理,2021,37(10):1941?1951.
[6] 張鵬程,郭海燕,楊震,等.一種基于圖后置濾波的多通道語音增強方法研究[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2022,42(2):66?71.
[7] 范珍艷,莊曉東,李鐘曉.基于變換域稀疏度量的多級FrFT語音增強[J].計算機工程與設(shè)計,2020,41(9):2574?2584.
[8] LIN Z T, ZENG B, HU H T, et al. SASE: Self?adaptive noise distribution network for speech enhancement with federated learning using heterogeneous data [J]. Knowledge?based systems, 2023, 266(4): 1?15.
[9] WANG Z Y, ZHANG T, SHAO Y Y, et al. LSTM?convolutional?BLSTM encoder?decoder network for minimum mean?square error approach to speech enhancement [J]. Applied acoustics, 2021, 172(2): 107647.
[10] 王睿琦,程皓楠,葉龍,等.基于還音轉(zhuǎn)換規(guī)則的膠片音頻生成方法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(10):1524?1532.
[11] 樊一帆,張麗丹.強噪環(huán)境基于譜減法的錄音數(shù)字音頻信號降噪[J].計算機仿真,2023,40(11):433?436.
[12] 李向群,伍亞萍,莊旭菲,等.結(jié)合廣義S變換和快速獨立分量分析的局放信號中窄帶干擾抑制方法[J].現(xiàn)代電力,2022,39(5):597?604.
[13] 王磊,王麗,朱晗東.一種基于對稱傅里葉變換的信號頻率估計算法研究[J].電子器件,2022,45(5):1145?1149.
作者簡介:哈" 箏(1985—),女,回族,河北保定人,博士,副教授,研究方向為信號處理。