亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于MFCC和神經(jīng)網(wǎng)絡(luò)的聲音分類(lèi)和聲音管理

2018-11-14 04:47:04

福建質(zhì)量管理 2018年20期

(重慶工商大學(xué)電子商務(wù)及供應(yīng)鏈系統(tǒng)重慶市重點(diǎn)實(shí)驗(yàn)室重慶 400067)

一、引言

聲音的分類(lèi)和管理是聲音信號(hào)處理的一個(gè)基本問(wèn)題。聲音中富含了多種信息，有效利用了這些信息可以幫助人類(lèi)實(shí)現(xiàn)很多人類(lèi)自身無(wú)法完成的問(wèn)題，比如在地震帶區(qū)識(shí)別動(dòng)物的異常聲音可以起到輔助地震警報(bào)的作用。由此可見(jiàn)，分析自然環(huán)境聲音識(shí)別對(duì)我們的生活有著巨大的作用。

在聲音分類(lèi)中，首先得提取聲音特征。有很多特征可以代表音頻信號(hào)，其中最常用的語(yǔ)音特征就是Mel頻率倒譜系數(shù)。Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的，具有良好的識(shí)別性能[1],因此本文用Mel頻率倒譜系數(shù)表示聲音特征。

本文利用基于MFCC和神經(jīng)網(wǎng)絡(luò)的方法實(shí)現(xiàn)對(duì)自然聲音識(shí)別。神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型，有效地解決了傳統(tǒng)機(jī)器學(xué)習(xí)模型的大數(shù)據(jù)和多分類(lèi)問(wèn)題，且有很好的預(yù)測(cè)和分類(lèi)精度.正是鑒于神經(jīng)網(wǎng)絡(luò)的種種優(yōu)點(diǎn)，本文嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)模型解決自然環(huán)境聲音的識(shí)別問(wèn)題[2]。

二、特征提取

(一)預(yù)處理

首先本文將所獲取到的自然環(huán)境音頻文件轉(zhuǎn)換成音頻信號(hào)數(shù)據(jù)。其次,多聲道轉(zhuǎn)為單聲道,所有的音頻信號(hào)都重采樣到16KHZ。所有音頻文件的時(shí)間長(zhǎng)度都切割為為2s 。

(二)Mel 頻率倒譜系數(shù)(MFCCs)特征提取

(1)預(yù)加重將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器

(2)分幀將自然環(huán)境音頻信號(hào)劃分成一系列連續(xù)的幀,這里我們加漢寧窗分幀,每幀包含 N=256個(gè)樣本,相鄰幀有128個(gè)樣本重疊,每幀時(shí)間為16ms。

(3)加窗將每一幀乘漢明窗。

(4)快速傅里葉變換對(duì)分幀加窗后的各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜，并對(duì)語(yǔ)音信號(hào)的頻譜取模平方得到語(yǔ)音信號(hào)的功率譜。

(5)將FFT頻譜通過(guò)一組20個(gè)mel濾波器就可以轉(zhuǎn)換為mel頻譜。Mel濾波器組一般是一組mel刻度的三角形濾波器組.

(6)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量，并將每個(gè)濾波器的對(duì)數(shù)能量帶入離散余弦變換，即可得到12 階的倒譜系數(shù)。將每幀的12個(gè)M FCC 參數(shù)作為矩陣的一列,按順序組成的矩陣就是 M FCC 特征矩陣[3,4]。

三、BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)算法包括信號(hào)的前向傳播和誤差的反向傳播兩個(gè)過(guò)程。前向傳播時(shí)，輸入信號(hào)X通過(guò)隱藏層節(jié)點(diǎn)作用于輸出節(jié)點(diǎn)，經(jīng)過(guò)非線(xiàn)性變換，產(chǎn)生輸出信號(hào)Y，若實(shí)際輸出與期望輸出不相符，則二者的誤差進(jìn)入反向傳播過(guò)程。反向傳播是將輸出誤差e通過(guò)隱藏層向輸入層逐層反向傳播，并將誤差分?jǐn)偨o各層所有單元，以從各層獲得的誤差作為調(diào)整各單元權(quán)值和閾值的依據(jù)。通過(guò)調(diào)整層與層之間的連接權(quán)重和閾值，使誤差沿梯度方向下降，經(jīng)過(guò)反復(fù)學(xué)習(xí)訓(xùn)練，確定與最小誤差相對(duì)應(yīng)的各層權(quán)值和閾值，訓(xùn)練停止。此時(shí)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)即能對(duì)類(lèi)似樣本的輸入信息，自行處理輸出誤差最小的經(jīng)過(guò)非線(xiàn)形轉(zhuǎn)換的信息[5]。

四、仿真實(shí)驗(yàn)與結(jié)果分析

先提取每個(gè)訓(xùn)練音頻樣本的特征并創(chuàng)建特征向量，每個(gè)音頻樣本被切分為249幀，每幀包含 256個(gè)樣本,相鄰幀有128個(gè)樣本重疊,每幀時(shí)間為16ms。然后將音頻的特征參數(shù)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練，最后提取測(cè)試樣本的特征向量并通過(guò)神經(jīng)網(wǎng)絡(luò)得到識(shí)別結(jié)果。這里的神經(jīng)網(wǎng)絡(luò)包含輸入層，隱藏層，輸出層共3層，輸入層的神經(jīng)元是12，隱含層的神經(jīng)元個(gè)數(shù)是10，輸出層神經(jīng)元是5。隱藏層的激活函數(shù)是matlab中自帶的tansig函數(shù)，輸出層的激活函數(shù)是matlab中自帶的softmax函數(shù)。最大迭代次數(shù)為1000。為做對(duì)比，我們將同樣的特征向量在SVM上進(jìn)行試驗(yàn)，SVM 分類(lèi)器使用徑向基核函數(shù)。表1是具體的分類(lèi)情況。

表1 具體的分類(lèi)結(jié)果

從上面的實(shí)驗(yàn)結(jié)果可以看出，對(duì)于聲音的分類(lèi)，神經(jīng)網(wǎng)絡(luò)模型的效果遠(yuǎn)遠(yuǎn)大于SVM的模型的效果，因此我們可以考慮用基于MFCC和神經(jīng)網(wǎng)絡(luò)模型的方法對(duì)聲音分類(lèi)。

五、結(jié)束語(yǔ)

本文提出了一種基于MFCC和神經(jīng)網(wǎng)絡(luò)模型對(duì)聲音進(jìn)行分類(lèi)和管理的方法。實(shí)驗(yàn)證明了MFCC 能很好地描述聲音信號(hào)，且證明了基于MFCC特征空間建立神經(jīng)網(wǎng)絡(luò)模型對(duì)聲音的分類(lèi)可取得很好的效果。我們可以將這套聲音識(shí)別模型用于很多領(lǐng)域，比如在森林、原野等地使用自動(dòng)監(jiān)聽(tīng)和識(shí)別物種聲音對(duì)瀕臨滅絕的動(dòng)物進(jìn)行偵察,有利于我們及時(shí)發(fā)現(xiàn)它們并采取相應(yīng)的保護(hù)措施。下一步我們要研究的是將這個(gè)聲音分類(lèi)模型用于更多種類(lèi)的聲音識(shí)別，并提高識(shí)別準(zhǔn)確率，從而使我們可以更好地管理聲音中的信息，進(jìn)而為人類(lèi)服務(wù)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于MFCC和神經(jīng)網(wǎng)絡(luò)的聲音分類(lèi)和聲音管理

一、引言

二、特征提取

三、BP神經(jīng)網(wǎng)絡(luò)

四、仿真實(shí)驗(yàn)與結(jié)果分析

五、結(jié)束語(yǔ)

一、引言

三、BP神經(jīng)網(wǎng)絡(luò)

四、仿真實(shí)驗(yàn)與結(jié)果分析

五、結(jié)束語(yǔ)