張 勇, 張 溯, 王旭東, 路 陽, 王 臣
(1. 東北石油大學(xué) a. 電子科學(xué)學(xué)院; b. 黑龍江省網(wǎng)絡(luò)化與智能控制重點(diǎn)實(shí)驗(yàn)室, 黑龍江 大慶 163318;2. 大慶油田有限責(zé)任公司第一采油廠 儀表安裝維修大隊(duì), 黑龍江 大慶 163453;3. 黑龍江八一農(nóng)墾大學(xué) 電氣與信息學(xué)院, 黑龍江 大慶 163319)
隨著計(jì)算機(jī)科學(xué)與人工智能的飛速發(fā)展, 人們對(duì)聲音的研究變得越來越深入, 同時(shí)將語音作為信號(hào)的一種, 進(jìn)行數(shù)字化處理, 逐步發(fā)展出龐大的學(xué)科體系[1]。經(jīng)過多年的探索, 對(duì)語音的研究已經(jīng)無法滿足人類社會(huì)的需求, 人們的目光開始轉(zhuǎn)向了非語音的環(huán)境聲音, 并從中可獲取大量有價(jià)值的信息。對(duì)其所處場(chǎng)景的研究可以幫助人們從海量的數(shù)據(jù)中抽取有用的信息, 并應(yīng)用于現(xiàn)代農(nóng)業(yè)、 地質(zhì)勘探、 軍事科研等領(lǐng)域[2], 具有十分重要的意義。
當(dāng)前對(duì)場(chǎng)景音頻的分析可以從時(shí)域、 頻域兩方面入手。在時(shí)域分析方面, 無論待分析的場(chǎng)景音頻是數(shù)字量還是模擬量, 以時(shí)間為自變量的時(shí)域信號(hào)都是其原有的表達(dá)形式。時(shí)域分析的波形簡(jiǎn)潔易懂, 但含有的有效信息較少, 常選取的特征有過零率、 短時(shí)能量和自相關(guān)函數(shù)等。而頻域分析則包含了更多的感知性能和聲學(xué)特征, 對(duì)外界環(huán)境變化的抗干擾能力和適應(yīng)性更強(qiáng), 其中使用最廣泛的聲學(xué)特征是梅爾頻率倒譜系數(shù)(MFCC: Mel Frequency Cepstrum Coefficient)[3]。它結(jié)合了人耳的聽覺特征和語音產(chǎn)生原理, 與頻率呈非線性對(duì)應(yīng)關(guān)系, 對(duì)結(jié)構(gòu)性突出的音頻(比如語音)有著出色的刻畫能力。但是場(chǎng)景音頻一般時(shí)長(zhǎng)較長(zhǎng), 頻率變化比語音音頻劇烈得多, 在非平穩(wěn)態(tài)噪聲條件下, 性能會(huì)急劇下降, 影響聲學(xué)特征的提取[4]。如果使用短時(shí)特征, 就不能完整的刻畫出場(chǎng)景音頻的聲學(xué)特征; 如果使用長(zhǎng)時(shí)統(tǒng)計(jì)值, 會(huì)造成特征的局部結(jié)構(gòu)性信息的丟失[5]。時(shí)域信號(hào)和頻域信號(hào)都是一維信號(hào), 如果將這兩者聯(lián)合, 將時(shí)間和頻率同時(shí)作為自變量, 而將對(duì)應(yīng)的能量值當(dāng)作因變量, 這既可反映音頻信號(hào)的長(zhǎng)時(shí)特征, 也能反映其局部特性, 使場(chǎng)景音頻的時(shí)頻域特征得到完整的保留。
筆者通過對(duì)場(chǎng)景音頻的時(shí)頻域特征進(jìn)行提取, 得到待分析信號(hào)的語譜圖, 對(duì)于其中涉及到的重要參數(shù)進(jìn)行調(diào)整, 使其中的聲學(xué)特征得到完整保留, 使語譜圖的表現(xiàn)效果達(dá)到最佳狀態(tài), 進(jìn)而可應(yīng)用于場(chǎng)景音頻的分類處理及模式識(shí)別等研究方向[6]。
語譜圖是一種可視化語言, 能描述聲音時(shí)間-頻率-頻譜能量密度的變化, 被廣泛應(yīng)用于音頻識(shí)別及去噪領(lǐng)域[7,8]。語譜圖的顯示簡(jiǎn)潔明了, 灰度語譜圖上會(huì)用深淺不同的黑灰色條紋呈現(xiàn)出有規(guī)律的形狀, 即聲紋, 它反映音頻信號(hào)的變化規(guī)律。語譜圖的橫坐標(biāo)為時(shí)間, 縱坐標(biāo)為頻率, 而對(duì)應(yīng)點(diǎn)的顏色深淺則表示在該時(shí)間、 頻率上頻譜能量的大小[9]。
繪制語譜圖的核心思想是假設(shè)音頻信號(hào)在一定時(shí)間內(nèi)是穩(wěn)定的, 對(duì)音頻信號(hào)進(jìn)行分段, 將每段音頻當(dāng)做平穩(wěn)時(shí)間信號(hào)處理。關(guān)鍵算法為短時(shí)傅立葉變換(STFT: Short Time Fourier Transform)和離散傅里葉變換(DFT: Discrete Fourier Transformation)。STFT又叫窗式傅里葉變換, 它將非平穩(wěn)過程看成是一系列短時(shí)平穩(wěn)信號(hào)的疊加, 短時(shí)性可通過在時(shí)間上加窗實(shí)現(xiàn)。快速傅里葉變換為離散傅里葉變換的一種快速高效的算法, 因此一般在實(shí)際操作時(shí), 使用快速傅里葉變換。
假設(shè)離散時(shí)域信號(hào)為x(n),n=0,1,…,N-1, 其中n為時(shí)域采樣點(diǎn)序號(hào),N是信號(hào)長(zhǎng)度。然后對(duì)信號(hào)進(jìn)行分幀處理, 則x(n)表示為xq(m),q=0,1,…,Q-1, 其中q是幀序號(hào),m是幀同步的時(shí)間序號(hào),Q為幀長(zhǎng)(一幀內(nèi)的采樣點(diǎn)數(shù))。信號(hào)x(n)的STFT為
(1)
其中w(q)為窗序列[10], 則信號(hào)x(n)的離散時(shí)間傅里葉變換(DTFT: Discrete Time Fourier Transform)為
(2)
DTF由DTFT采樣得到, 采用DFT, 則x(n)的短時(shí)幅度譜估計(jì)為
(3)
假設(shè)信號(hào)x(n)的傅里葉變換為X(w), 則x(n)的自相關(guān)函數(shù)的傅里葉變換可以表示為X(q)與共軛變換conj(X(q))的乘積[11]。則時(shí)間m處的頻譜能量密度函數(shù)P(q,k)可表示為
(4)
頻譜能量密度函數(shù)P(q,k)的分貝(dB)表示為
P(q,k)(dB)=10Log10(P(q,k))
(5)
其中以q為橫坐標(biāo),k為縱坐標(biāo), 以P(q,k)(dB)為表示對(duì)應(yīng)點(diǎn)上的灰度值, 所得的二維圖像就是時(shí)間信號(hào)x(n)的語譜圖。
加窗是對(duì)音頻進(jìn)行語譜圖提取過程中的重要步驟。當(dāng)使用軟件對(duì)音頻信號(hào)進(jìn)行分析和處理時(shí), 不可能使用無限長(zhǎng)的音頻信號(hào), 而是要截取部分有效的片段進(jìn)行操作。因此, 需從待分析音頻中截取一個(gè)片段, 對(duì)該片段進(jìn)行周期延拓處理, 從而得到虛擬的無限長(zhǎng)的音頻信號(hào), 就可以對(duì)該信號(hào)進(jìn)行分析和處理。無限長(zhǎng)的音頻信號(hào)被截?cái)嘁院? 其頻譜會(huì)發(fā)畸變, 從而造成頻譜能量泄露。為減少頻譜能量泄漏, 可采用不同的截取函數(shù)對(duì)信號(hào)進(jìn)行截?cái)郲12], 截?cái)嗪瘮?shù)稱為窗函數(shù), 簡(jiǎn)稱為窗。
不同的窗函數(shù)對(duì)信號(hào)頻譜的影響不同, 控制頻譜能量泄漏的能力不同, 頻率識(shí)別精度和幅值識(shí)別精度也不同。對(duì)于場(chǎng)景音頻, 一般其頻譜表現(xiàn)都十分復(fù)雜, 包含多個(gè)頻率分量, 周期性較差, 隨機(jī)性較強(qiáng), 因此在窗函數(shù)的選擇方面, 需遵循主瓣寬度窄, 旁瓣衰減速度快的原則[13]。在這種情況下, 漢寧窗(Hanning)和海明窗(Hamming)都是不錯(cuò)的選擇。
漢寧窗又被稱為升余弦窗[14], 可將其看為3個(gè)矩形時(shí)間窗的頻譜和, 它可使旁瓣互相抵消, 衰減速度較快, 可消除干擾和能量泄漏。其表達(dá)式為
(6)
其中whn(n,τ)表示窗函數(shù),n=1,2,3,…,Nwin,n為窗函數(shù)采樣點(diǎn)序號(hào),τ表示窗的中間位置,Nwin為窗長(zhǎng)。漢寧窗輸出的波形圖如圖1所示。
海明窗也是余弦窗的一種, 又被稱為改進(jìn)的升余弦窗, 漢寧窗和海明窗都是升余弦窗, 只是加權(quán)系數(shù)不同, 海明窗的加權(quán)系數(shù)能使旁瓣達(dá)到更小。其表達(dá)式為
(7)
其中whm(n,τ)表示窗函數(shù),n=1,2,3,…,Nwin,n為窗函數(shù)采樣點(diǎn)序號(hào),τ表示窗的中間位置,Nwin為窗長(zhǎng)。海明窗輸出的波形圖如圖2所示。
圖1 漢寧窗波形圖 圖2 海明窗波形圖 Fig.1 The waveform of hanning window Fig.2 The waveform of hamming window
圖3 語譜圖提取流程圖Fig.3 The flow chart of the extraction of spectrogram
語譜圖提取流程如圖3所示。該過程的具體算法及操作步驟:
1) 在Matlab中, 使用wavread函數(shù)讀取待分析場(chǎng)景音頻, 并將音頻數(shù)據(jù)賦值給Sg, 將采樣率賦值給Fs;
2) 設(shè)置窗長(zhǎng)Nwin和幀移Nshift, 根據(jù)窗長(zhǎng)及信號(hào)長(zhǎng)度確定分幀數(shù)n, 考慮到后續(xù)步驟中FFT的使用,Nwin最好設(shè)置為2的冪次[15], 若128/256/512/1 024, 本實(shí)驗(yàn)中選取1 024, 取得了較好效果, 幀移的選擇影響時(shí)域分辨率和計(jì)算量[16], 則幀移Nshift可設(shè)置為窗長(zhǎng)的二分之一;
3) 生成一個(gè)空矩陣A, 矩陣大小為n(1/2Nwin+1);
4) 對(duì)音頻信號(hào)Sg進(jìn)行分幀處理, 假設(shè)Si為第i幀信號(hào)的數(shù)據(jù);
5) 對(duì)Si進(jìn)行加窗處理, 窗函數(shù)的選擇參考前文1.2;
6) 對(duì)加窗后的數(shù)據(jù)進(jìn)行快速傅里葉變換, 即FFT, 變換后的數(shù)據(jù)用Zi表示;
8) 將第i幀的頻譜能量密度Pi數(shù)據(jù)賦值給矩陣A的第i列;
9) 滑動(dòng)窗向右移動(dòng)Nshift個(gè)采樣點(diǎn), 獲得第i+1幀個(gè)音頻信號(hào)數(shù)據(jù)Si+1, 重復(fù)步驟4)~8), 直到處理完所有分幀數(shù)據(jù);
10) 將矩陣A映射為灰度圖, 得到原始音頻信號(hào)的語譜圖。
對(duì)本實(shí)驗(yàn)所需的場(chǎng)景音頻數(shù)據(jù), 可通過兩種方式獲?。?1) 使用麥克風(fēng)及聲卡自行收集; 2) 從網(wǎng)絡(luò)上的開源數(shù)據(jù)庫中獲取所需音頻數(shù)據(jù)。本次實(shí)驗(yàn)的場(chǎng)景音頻通過網(wǎng)絡(luò)數(shù)據(jù)庫下載獲得, 共11個(gè)場(chǎng)景, 具體場(chǎng)景如圖4所示。
圖4 收集到的11種場(chǎng)景音頻Fig.4 The collected 11 scene audio
獲得場(chǎng)景音頻后, 通過Adobe Audition軟件對(duì)音頻進(jìn)行剪輯, 音頻長(zhǎng)度均不超過30 s, 單聲道, 采樣率為44 100 Hz。
在對(duì)場(chǎng)景音頻提取語譜圖的過程中, 由于設(shè)置的窗長(zhǎng)不同, 可將語譜圖分為寬帶語譜圖和窄帶語譜圖兩種。寬帶語譜圖的窗長(zhǎng)較短, 時(shí)間分辨率好, 頻率分辨率低, 不能反映出聲音的紋理特性。窄帶語譜圖的窗長(zhǎng)較長(zhǎng), 頻率分辨率好, 但時(shí)間分辨率不理想。圖5~圖10分別給出籃球場(chǎng)、 海灘和高速公路3個(gè)場(chǎng)景的音頻寬帶語譜圖和窄帶語譜圖。
由圖5~圖10可見, 每個(gè)對(duì)應(yīng)點(diǎn)的值表示對(duì)應(yīng)時(shí)間和頻率上的頻譜能量密度, 實(shí)際效果為頻譜能量密度越大的點(diǎn), 顏色越深??梢钥闯? 場(chǎng)景音頻語譜圖包含著豐富的紋理信息, 其中有與頻率軸平行的豎直條紋, 由若干點(diǎn)組成的有規(guī)律的散沙狀圖案, 以及一些單獨(dú)的沒有特定規(guī)則的條紋。這些條紋及形狀可以將其理解為場(chǎng)景音頻中的聲學(xué)事件在語譜圖上的具體表現(xiàn)。
根據(jù)對(duì)圖5、 圖7和圖9的觀察可見, 寬帶語譜圖雖然時(shí)間方面的分辨率較強(qiáng), 但無法將聲學(xué)事件完整提取, 很難在語譜圖上直觀表現(xiàn)出場(chǎng)景音頻的聲學(xué)特性。而圖6、 圖8和圖10等窄帶語譜圖則將場(chǎng)景音頻中的聲學(xué)事件完整的提取出來, 表達(dá)了聲學(xué)事件具有的重復(fù)性、 連貫性以及趨勢(shì)等。圖6中的有規(guī)律的豎條紋為籃球拍擊地面的聲音, 若干個(gè)這樣的聲學(xué)事件組成了一個(gè)完整的籃球場(chǎng)場(chǎng)景音頻。圖8海灘場(chǎng)景語譜圖則很好的將連貫的海浪聲和比海浪聲音略高頻的海鷗叫聲這兩個(gè)聲學(xué)事件完整提取。圖10高速公路場(chǎng)景語譜圖則完整的反映了高速路上車輛轟鳴聲由遠(yuǎn)及近的聲學(xué)事件。
圖5 籃球場(chǎng)場(chǎng)景音頻寬帶語譜圖顯示 圖6 籃球場(chǎng)場(chǎng)景音頻窄帶語譜圖顯示 Fig.5 The basketball court scene audio wideband spectrogram display Fig.6 The basketball court scene audio narrowband spectrogram display
圖7 海灘場(chǎng)景音頻寬帶語譜圖顯示 圖8 海灘場(chǎng)景音頻窄帶語譜圖顯示 Fig.7 The beach scene audio wideband spectrogram display Fig.8 The beach scene audio narrowband spectrogram display
圖9 高速公路場(chǎng)景音頻寬帶語譜圖顯示 圖10 高速公路場(chǎng)景音頻窄帶語譜圖顯示 Fig.9 The highway scene audio wideband spectrogram display Fig.10 The highway scene audio narrowband spectrogram display
當(dāng)前用于場(chǎng)景類音頻的聲學(xué)分析方式均存在不足, 使用時(shí)頻域特征分析更加適合場(chǎng)景音頻, 語譜圖分析能夠反映待分析信號(hào)的時(shí)頻域特征。筆者提出了一種使用語譜圖對(duì)場(chǎng)景音頻進(jìn)行分析的方法, 闡述了語譜圖的產(chǎn)生機(jī)制以及提取語譜圖的基本流程, 并給出具體算法。對(duì)操作過程中窗函數(shù)的選擇、 提取過程中的注意事項(xiàng)進(jìn)行了簡(jiǎn)要分析, 并給出參考性意見。最后對(duì)不同場(chǎng)景的音頻進(jìn)行語譜圖提取, 分別得到其寬帶語譜圖及窄帶語譜圖, 并分析了窗長(zhǎng)對(duì)于音頻場(chǎng)景語譜圖提取效果的影響, 得出了對(duì)于場(chǎng)景音頻分析, 更適合使用窄帶語譜圖的結(jié)論。筆者的研究?jī)?nèi)容有助于完整提取待分析信號(hào)的聲學(xué)特征, 加深對(duì)于場(chǎng)景音頻分析和處理的研究, 可應(yīng)用于場(chǎng)景音頻的識(shí)別和分類, 具有一定的科學(xué)意義和參考價(jià)值。
參考文獻(xiàn):
[1]陳瑩, 鐘菲, 郭樹旭, 等. 基于塊對(duì)角結(jié)構(gòu)的語音信號(hào)盲壓縮重構(gòu) [J]. 吉林大學(xué)學(xué)報(bào): 信息科學(xué)版, 2016, 34(4): 491-495.
CHEN Ying, ZHONG Fei, GUO Shuxu, et al. Blind Compressed Sensing Reconstruction of Speech Signal Based on Block Diagonal Structure [J]. Journal of Jilin University: Information Science Edition, 2016, 34(4): 491-495.
[2]王霏, 何東超, 李月. 陸地地震勘探環(huán)境噪聲的混沌性建模研究 [J]. 吉林大學(xué)學(xué)報(bào): 信息科學(xué)版, 2016, 34(3): 320-326.
WANG Fei, HE Dongchao, LI Yue. Modeling Study of Chaotic Ambient Noise in Land Seismic Exploration [J]. Journal of Jilin University: Information Science Edition, 2016, 34(3): 320-326.
[3]李?yuàn)? 徐瓏婷. 基于語譜圖提取瓶頸特征的情感識(shí)別算法研究 [J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2017, 27(5): 82-86.
LI Shan, XU Longting. Research on Emotion Recognition Algorithm Based on Spectrogram Feature Extraction of Bottleneck Feature [J]. Computer Technology and Development, 2017, 27(5): 82-86.
[4]尚永強(qiáng), 殷未來, 姜雙雙, 等. 基于相位調(diào)制特征的語音活動(dòng)檢測(cè) [J]. 吉林大學(xué)學(xué)報(bào): 信息科學(xué)版, 2016, 34(1): 29-33.
SHANG Yongqiang, YIN Weilai, JIANG Shuangshuang, et al. Voice Activity Detection Based on Phase Modulation Feature [J]. Journal of Jilin University: Information Science Edition, 2016, 34(1): 29-33.
[5]王乃峰. 基于深層神經(jīng)網(wǎng)絡(luò)的音頻特征提取及場(chǎng)景識(shí)別研究 [D]. 哈爾濱: 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 2015.
WANG Naifeng. Research on Audio Feature Extraction and Context Recognition Based on Deep Neural Networks [D]. Harbin: School of Computer Science and Technology, Harbin Institute of Technology, 2015.
[6]PEERAPOL KHUNARSAL, CHIDCHANOK LURSINSAP, THANAPANT RAICHAROEN. Very Short Time Environmental Sound Classification Based on Spectrogram Pattern Matching [J]. Information Sciences, 2013, 243: 57-74.
[7]蔣錦剛, 邵小云, 萬海波, 等. 基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析 [J]. 生態(tài)學(xué)報(bào), 2016, 36(23): 7713-7723.
JIANG Jingang, SHAO Xiaoyun, WAN Haibo, et al. Bird diversity Research Using Audio Record Files and the Spectrogram Segmentation Method [J]. Acta Ecologica Sinica, 2016, 36(23): 7713-7723.
[8]鄭黨, 鮑鴻, 張晶. 基于小波語譜圖分析的語音去噪技術(shù) [J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(4): 94-98.
ZHENG Dang, BAO Hong, ZHANG Jing. Speech De-Noising Technology Based on Wavelet-Speech Spectrogram [J]. Computer Engineering and Applications, 2016, 52(4): 94-98.
[9]THOMAS A LAMPERT, SIMON E M O’KEEFE. A Survey of Spectrogram Track Detection Algorithms [J]. Applied Acoustics, 2010, 71(2): 87-100.
[10]LI Jiarui, HONG Ying. Wheeze Detecting Method Based on Spectrogram Entropy Analysis [J]. Chinses Journal of Acoustics, 2016, 35(4): 508-515.
[11]李富強(qiáng), 萬紅, 黃俊杰. 基于MATLAB的語譜圖顯示與分析 [J]. 微計(jì)算機(jī)信息, 2005, 21(20): 172-174.
LI Fuqiang, WAN Hong, HUANG Junjie. The Display and Analysis of Sonogram Based on MATLAB [J]. Microcomputer Information, 2005, 21(20): 172-174.
[12]崔璨, 袁英才. 窗函數(shù)在信號(hào)處理中的應(yīng)用 [J]. 北京印刷學(xué)院學(xué)報(bào), 2014, 22(4): 71-77.
CUI Can, YUAN Yingcai. Application of Window Function in Signal Processing [J]. Journal of Beijing Institute of Graphic Communication, 2014, 22(4): 71-77.
[13]毛青春, 徐分亮. 窗函數(shù)及其應(yīng)用 [J]. 中國(guó)水運(yùn), 2007, 7(2): 230-232.
MAO Qingchun, XU Fenliang. The Window’s Function and it’s Application [J]. China Water Transport, 2007, 7(2): 230-232.
[14]王愛娟, 邢艷秋, 邱賽, 等. 基于窗函數(shù)的林區(qū)ICESat-GLAS波形數(shù)據(jù)消噪研究 [J]. 西北林學(xué)院學(xué)報(bào), 2016, 31(1): 214-220.
WANG Aijuan, XING Yanqiu, QIU Sai, et al. Denoising of Forest ICESat-GLAS Waveform Data Based on Window Function [J]. Journal of Northwest Forestry University, 2016, 31(1): 214-220.
[15]楊春風(fēng). 基于語譜圖的音頻數(shù)字水印算法 [D]. 蘭州: 西北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 2009.
YANG Chunfeng. Audio Digital Watermarking Algorithm Based on Spectrogram [D]. Lanzhou: College of Mathematics and Statistics, Northwest Normal University, 2009.
[16]肖純智, 孫大飛, 高勇. 一種基于語譜圖分析的語音增強(qiáng)算法 [J]. 電聲技術(shù), 2012, 36(9): 44-48.
XIAO Chunzhi, SUN Dafei, GAO Yong. A Speech Enhancement Algorithm Based on Speech Spectrogram [J]. Audio Engineering, 2012, 36(9): 44-48.