(重慶工商大學(xué)電子商務(wù)及供應(yīng)鏈系統(tǒng)重慶市重點(diǎn)實(shí)驗(yàn)室 重慶 400067)
聲音的分類(lèi)和管理是聲音信號(hào)處理的一個(gè)基本問(wèn)題。聲音中富含了多種信息,有效利用了這些信息可以幫助人類(lèi)實(shí)現(xiàn)很多人類(lèi)自身無(wú)法完成的問(wèn)題,比如在地震帶區(qū)識(shí)別動(dòng)物的異常聲音可以起到輔助地震警報(bào)的作用。由此可見(jiàn),分析自然環(huán)境聲音識(shí)別對(duì)我們的生活有著巨大的作用。
在聲音分類(lèi)中,首先得提取聲音特征。有很多特征可以代表音頻信號(hào),其中最常用的語(yǔ)音特征就是Mel頻率倒譜系數(shù)。Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,具有良好的識(shí)別性能[1],因此本文用Mel頻率倒譜系數(shù)表示聲音特征。
本文利用基于MFCC和神經(jīng)網(wǎng)絡(luò)的方法實(shí)現(xiàn)對(duì)自然聲音識(shí)別。神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,有效地解決了傳統(tǒng)機(jī)器學(xué)習(xí)模型的大數(shù)據(jù)和多分類(lèi)問(wèn)題,且有很好的預(yù)測(cè)和分類(lèi)精度.正是鑒于神經(jīng)網(wǎng)絡(luò)的種種優(yōu)點(diǎn),本文嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)模型解決自然環(huán)境聲音的識(shí)別問(wèn)題[2]。
(一)預(yù)處理
首先本文將所獲取到的自然環(huán)境音頻文件轉(zhuǎn)換成音頻信號(hào)數(shù)據(jù)。其次,多聲道轉(zhuǎn)為單聲道,所有的音頻信號(hào)都重采樣到16KHZ。所有音頻文件的時(shí)間長(zhǎng)度都切割為為2s 。
(二)Mel 頻率倒譜系數(shù)(MFCCs)特征提取
(1)預(yù)加重 將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器
(2)分幀 將自然環(huán)境音頻信號(hào)劃分成一系列連續(xù)的幀,這里我們加漢寧窗分幀,每幀包含 N=256個(gè)樣本,相鄰幀有128個(gè)樣本重疊,每幀時(shí)間為16ms。
(3)加窗 將每一幀乘漢明窗。
(4)快速傅里葉變換 對(duì)分幀加窗后的各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜,并對(duì)語(yǔ)音信號(hào)的頻譜取模平方得到語(yǔ)音信號(hào)的功率譜。
(5)將FFT頻譜通過(guò)一組20個(gè)mel濾波器就可以轉(zhuǎn)換為mel頻譜。Mel濾波器組一般是一組mel刻度的三角形濾波器組.
(6)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量,并將每個(gè)濾波器的對(duì)數(shù)能量帶入離散余弦變換,即可得到12 階的倒譜系數(shù)。將每幀的12個(gè)M FCC 參數(shù)作為矩陣的一列,按順序組成的矩陣就是 M FCC 特征矩陣[3,4]。
BP神經(jīng)網(wǎng)絡(luò)算法包括信號(hào)的前向傳播和誤差的反向傳播兩個(gè)過(guò)程。前向傳播時(shí),輸入信號(hào)X通過(guò)隱藏層節(jié)點(diǎn)作用于輸出節(jié)點(diǎn),經(jīng)過(guò)非線(xiàn)性變換,產(chǎn)生輸出信號(hào)Y,若實(shí)際輸出與期望輸出不相符,則二者的誤差進(jìn)入反向傳播過(guò)程。反向傳播是將輸出誤差e通過(guò)隱藏層向輸入層逐層反向傳播,并將誤差分?jǐn)偨o各層所有單元,以從各層獲得的誤差作為調(diào)整各單元權(quán)值和閾值的依據(jù)。通過(guò)調(diào)整層與層之間的連接權(quán)重和閾值,使誤差沿梯度方向下降,經(jīng)過(guò)反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對(duì)應(yīng)的各層權(quán)值和閾值,訓(xùn)練停止。此時(shí)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)即能對(duì)類(lèi)似樣本的輸入信息,自行處理輸出誤差最小的經(jīng)過(guò)非線(xiàn)形轉(zhuǎn)換的信息[5]。
先提取每個(gè)訓(xùn)練音頻樣本的特征并創(chuàng)建特征向量,每個(gè)音頻樣本被切分為249幀,每幀包含 256個(gè)樣本,相鄰幀有128個(gè)樣本重疊,每幀時(shí)間為16ms。然后將音頻的特征參數(shù)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,最后提取測(cè)試樣本的特征向量并通過(guò)神經(jīng)網(wǎng)絡(luò)得到識(shí)別結(jié)果。這里的神經(jīng)網(wǎng)絡(luò)包含輸入層,隱藏層,輸出層共3層,輸入層的神經(jīng)元是12,隱含層的神經(jīng)元個(gè)數(shù)是10,輸出層神經(jīng)元是5。隱藏層的激活函數(shù)是matlab中自帶的tansig函數(shù),輸出層的激活函數(shù)是matlab中自帶的softmax函數(shù)。最大迭代次數(shù)為1000。為做對(duì)比,我們將同樣的特征向量在SVM上進(jìn)行試驗(yàn),SVM 分類(lèi)器使用徑向基核函數(shù)。表1是具體的分類(lèi)情況。
表1 具體的分類(lèi)結(jié)果
從上面的實(shí)驗(yàn)結(jié)果可以看出,對(duì)于聲音的分類(lèi),神經(jīng)網(wǎng)絡(luò)模型的效果遠(yuǎn)遠(yuǎn)大于SVM的模型的效果,因此我們可以考慮用基于MFCC和神經(jīng)網(wǎng)絡(luò)模型的方法對(duì)聲音分類(lèi)。
本文提出了一種基于MFCC和神經(jīng)網(wǎng)絡(luò)模型對(duì)聲音進(jìn)行分類(lèi)和管理的方法。實(shí)驗(yàn)證明了MFCC 能很好地描述聲音信號(hào),且證明了基于MFCC特征空間建立神經(jīng)網(wǎng)絡(luò)模型對(duì)聲音的分類(lèi)可取得很好的效果。我們可以將這套聲音識(shí)別模型用于很多領(lǐng)域,比如在森林、原野等地使用自動(dòng)監(jiān)聽(tīng)和識(shí)別物種聲音對(duì)瀕臨滅絕的動(dòng)物進(jìn)行偵察,有利于我們及時(shí)發(fā)現(xiàn)它們并采取相應(yīng)的保護(hù)措施。下一步我們要研究的是將這個(gè)聲音分類(lèi)模型用于更多種類(lèi)的聲音識(shí)別,并提高識(shí)別準(zhǔn)確率,從而使我們可以更好地管理聲音中的信息,進(jìn)而為人類(lèi)服務(wù)。