亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的環(huán)境聲音識(shí)別

        2018-10-20 11:01:44史秋瑩鄭鐵然
        關(guān)鍵詞:特征信號(hào)環(huán)境

        史秋瑩 鄭鐵然

        Abstract: Environment Sound Recognition(ESR) is an efficient way to perceive surrounding scenes, which is widely used in many application scenarios like robotic navigation, mobile robots, audio retrieval, audio forensics and other wearable, context-aware applications. Classifiers used in most ESR problems is too simple to express features and classify the environment sounds accurately. Deep Neural Network(DNN) is a multilayer, efficient neural network, which also can provide a better way for describing features and solving pattern recognition problems. In this paper, deep learning is used in ESR problem, and for sufficient using audio features, different audio features are fusioned by feature-fusion method. Based on the above, the paper classifies the environment sound by training the Deep Belief Network(DBN). Experimental results show that DBN and feature-fusion method could achieve better performance.

        引言

        第一次以文學(xué)形式記載下來(lái)的環(huán)境聲音識(shí)別的研究出現(xiàn)在1997年,具體是由來(lái)自麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)的Sawhney和Maes首度提出并創(chuàng)建問世[1],該研究的數(shù)據(jù)庫(kù)使用包括人群、地鐵、交通、人聲和其它5種語(yǔ)料,而且利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN) 和K-近鄰(K-Nearest Neighbor, KNN) 方法分別進(jìn)行5種環(huán)境聲音的分類,最終使用頻帶特征和RNN 分類器獲得68%的準(zhǔn)確率。1998年,同樣來(lái)自MIT的研究者通過(guò)在去往超市途中和在超市內(nèi)佩戴麥克風(fēng)的方式獲取連續(xù)的語(yǔ)音流,并對(duì)獲取的語(yǔ)音流加以分割,得到不同的特征地點(diǎn)如街道、房間、超市等總共10類場(chǎng)景,為了進(jìn)行環(huán)境場(chǎng)景的分類,研究選用了隱馬爾科夫(Hidden Markov Model, HMM)[2]。同時(shí),實(shí)驗(yàn)心理學(xué)領(lǐng)域的研究者著重研究人們理解和感知聲音場(chǎng)景的過(guò)程,Ballas 發(fā)現(xiàn)識(shí)別音頻場(chǎng)景的速度和準(zhǔn)確率與自然聲音的刺激、發(fā)生頻率等因素直接密切相關(guān)[3]。Peltonen等人則發(fā)現(xiàn)人們識(shí)別音頻場(chǎng)景是受特定的聲音事件的效果影響的,如人類說(shuō)話聲、汽車引擎轟鳴聲等,同時(shí)還在識(shí)別25類聲音場(chǎng)景中獲得70%的準(zhǔn)確率,平均響應(yīng)時(shí)間為20 s[4]。在心理聲學(xué)相關(guān)研究以及MIT研究者[1-2]的影響下,環(huán)境聲音識(shí)別受到了廣泛的關(guān)注。

        目前在環(huán)境聲音識(shí)別問題中,已推出了一些成熟解決方法,如GMM、HMM、KNN 等,這些都屬于常用的機(jī)器學(xué)習(xí)方法。但是這些架構(gòu)都是淺層結(jié)構(gòu),可以對(duì)簡(jiǎn)單問題或者完全約束問題取得良好的效果。但是當(dāng)處理復(fù)雜的自然信號(hào)如環(huán)境聲音、自然語(yǔ)言時(shí),由于缺少對(duì)復(fù)雜信號(hào)的表達(dá)能力和建模能力,淺層模型往往無(wú)法滿足識(shí)別性能的要求。而從淺層學(xué)習(xí)到深度學(xué)習(xí)的過(guò)程則可以視作為機(jī)器學(xué)習(xí)的一條清晰發(fā)展脈絡(luò)。

        1962年,由Rosenblatt 第一次引入感知器, 從此感知器作為神經(jīng)網(wǎng)絡(luò)中的一個(gè)分支概念[5] 而進(jìn)入學(xué)界視野。在此基礎(chǔ)上,Raudys提出單層感知器[6],其中只包含輸入層和輸出層,且兩者直接相連,而單層感知器也是一種最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)。1989年提出的多層感知器[7],組成結(jié)構(gòu)即是在單層感知器的設(shè)計(jì)上加入了一層隱藏層,多層感知器是最早具備深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。在1986年,由Rumelhart等人提出誤差反向傳播算法(Error Back Propagation, BP)[8],給基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)帶來(lái)了發(fā)展契機(jī),但是BP 算法并不適用于多個(gè)隱藏層的網(wǎng)絡(luò),所以在20世紀(jì)80年代末期,雖然找到了求解神經(jīng)網(wǎng)絡(luò)權(quán)值的有效方法,但卻只能繼續(xù)應(yīng)用在多層感知器上,并不能從本質(zhì)上脫離淺層網(wǎng)絡(luò)。由于受到這一現(xiàn)實(shí)問題阻隔,神經(jīng)網(wǎng)絡(luò)的研究曾一度擱置,轉(zhuǎn)而研究支持向量機(jī)(Support Vector Machine, SVM) 和條件隨機(jī)場(chǎng)(Conditional Random Field, CRF) 理論等其它淺層機(jī)器學(xué)習(xí)方法,而這些淺層網(wǎng)絡(luò)及相關(guān)理論的研究為深度學(xué)習(xí)的研究提供了良好的理論依據(jù)和經(jīng)驗(yàn)基礎(chǔ)。

        玻爾茲曼機(jī)(Boltzmann Machine, BM) 由Hinton 和 Sejnowski 在1986年成功構(gòu)建推出的[8],且是一種基于統(tǒng)計(jì)力學(xué)的隨機(jī)神經(jīng)網(wǎng)絡(luò)。同年,Sejnowski又進(jìn)一步提出了RBM[9]。RBM 是包含有一個(gè)可見層、一個(gè)隱藏層的層間全連接、層內(nèi)無(wú)連接的網(wǎng)絡(luò),并具有許多優(yōu)良的性質(zhì),其中的重要成果即是文獻(xiàn)[10],從理論上證明了只要隱藏單元足夠多,RBM 可以擬合任意離散分布。而2002年提出的對(duì)比散度算法(Contrastive Divergence, CD)[11],也由此而吸引了研究者對(duì)RBM 以及CD 算法的研究矚目。直到2006年,深度學(xué)習(xí)才正式亮相,在學(xué)術(shù)領(lǐng)域占據(jù)一席之地。另外,Hinton的研究表明訓(xùn)練一個(gè)全連接的深層網(wǎng)絡(luò)是完全可行的[12]。從2006年開始,深度學(xué)習(xí)作為一個(gè)新的機(jī)器學(xué)習(xí)領(lǐng)域受到了更多學(xué)者的青睞,也已開始陸續(xù)應(yīng)用在語(yǔ)音處理、圖像處理等眾多研究領(lǐng)域中,而且均已取得了豐碩成果。

        綜上研究可知,深度學(xué)習(xí)已經(jīng)具有完整的理論框架和豐厚的經(jīng)驗(yàn)基礎(chǔ),將其應(yīng)用在環(huán)境聲音識(shí)別中即已成為呈現(xiàn)利好應(yīng)用前景的研究嘗試。本文擬對(duì)此展開如下研究論述。

        1說(shuō)話人識(shí)別基本框架

        基于深度學(xué)習(xí)的環(huán)境聲音識(shí)別流程如圖1所示。流程中包括音頻輸入、前端處理、DBN分類和分類結(jié)果4個(gè)部分。文中重點(diǎn)論述了前端處理和DBN分類這2部分內(nèi)容。其中,前端處理包括梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)和能量譜密度(Power Spectral Density, PSD)的提取,并在提取后進(jìn)行特征拼接。研究過(guò)程詳見如下。

        1.1前端處理

        聲音信號(hào)是帶有聲波頻率、幅度變化等信息的載體,聲音信號(hào)的前端處理過(guò)程主要是對(duì)音頻信號(hào)進(jìn)行特征提取。聲音信號(hào)除了根本性的基頻、諧波、幅度等特征外,當(dāng)特定對(duì)應(yīng)于不同問題,也需要提取一些符合具體問題背景的音頻特征。特征提取的目的是為了去掉原始音頻數(shù)據(jù)中的冗余信息,減少實(shí)驗(yàn)數(shù)據(jù)量,而在進(jìn)行音頻特征提取時(shí),往往可以從時(shí)域和頻域2個(gè)方面分別考慮。音頻信號(hào)在時(shí)域上的變化較為快速,不易觀察,而在頻域上通??梢约僭O(shè)音頻信號(hào)在一個(gè)較短時(shí)間內(nèi)具有穩(wěn)定性,所以音頻信號(hào)的前端處理過(guò)程往往選擇在頻域上獲得實(shí)現(xiàn)。

        在環(huán)境聲音識(shí)別問題中,MFCC 特征較其它音頻特征常常更顯研究?jī)?yōu)勢(shì),本文在MFCC 特征的基礎(chǔ)上,嘗試加入其它音頻特征以提升識(shí)別性能。在本文中即選擇使用了能量譜密度(Power Spectral Density, PSD) 特征與MFCC 特征融合。為此,在本節(jié)中將首先給出MFCC 特征和PSD 特征的研究闡釋,然后對(duì)音頻特征的拼接方法提供完整的設(shè)計(jì)表述與分析。

        1.1.1梅爾倒譜系數(shù)

        20世紀(jì)40年代,Stevens 和 Volkmann 的研究表明,人類對(duì)于不同頻率的聲音反應(yīng)有不同的聽覺靈敏度。在1 KHz以下,聽覺系統(tǒng)所感知的聲音頻率(Mel)與該聲音的物理頻率(Hz)逼近于線性關(guān)系;而在1 KHz以上,聲音頻率與物理頻率不再遵循線性關(guān)系,而是接近于對(duì)數(shù)關(guān)系,且聲音頻率越高,人耳的聽覺靈敏度越差[13]?;谶@一理論事實(shí),1980年,文獻(xiàn)[14]全新提出了MFCC 特征,重點(diǎn)用于刻畫聲音在Mel 刻度頻率上提取得出的倒譜系數(shù),此外,MFCC 還可以對(duì)卷積信道產(chǎn)生的失真生成良好的補(bǔ)償能力??偟貋?lái)說(shuō),MFCC就是將人耳的聽覺感知特性和語(yǔ)音的產(chǎn)生機(jī)制二者相結(jié)合。由此可知,人耳對(duì)于高頻率聲音的聽覺靈敏度較差,故而,在實(shí)際應(yīng)用中,往往只保留低頻MFCC 特征,而舍棄高頻MFCC 特征。MFCC的提取過(guò)程如圖2所示。本文設(shè)計(jì)的主要流程包括6個(gè)部分,分別為:音頻預(yù)處理、快速傅里葉變換(Fast Fourier Transform, FFT)、取模平方、通過(guò)Mel 濾波器組、取對(duì)數(shù)能量和離散余弦變換(Discrete Consine Transform, DCT)。

        猜你喜歡
        特征信號(hào)環(huán)境
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        孕期遠(yuǎn)離容易致畸的環(huán)境
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        環(huán)境
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        日本高清无卡一区二区三区| 欧性猛交ⅹxxx乱大交| 一本久道久久综合五月丁香| 国产精品卡一卡二卡三| 在线看亚洲十八禁网站| 免费人成在线观看播放国产| 中文字幕一区二区三区人妻精品| 4hu44四虎www在线影院麻豆| 国产三级不卡在线观看视频| 国产一区二区av免费观看| 精品久久久bbbb人妻| 玩弄人妻少妇500系列网址| 狠狠躁天天躁无码中文字幕图| 日韩精品一二区在线视频| 中文字幕人妻av四季| 国产精品福利高清在线| 免费成人在线电影| 成人无码午夜在线观看| 国产精品玖玖玖在线资源| 亚洲综合久久一本久道| 一本色道久久88加勒比| 国产精品成人观看视频国产奇米 | 男女上床视频免费网站| 成年人一区二区三区在线观看视频| 久久天天躁狠狠躁夜夜avapp| 明星性猛交ⅹxxx乱大交| 99这里只有精品| 日本经典中文字幕人妻| 久久久免费看少妇高潮| 亚洲国产精品久久久久婷婷老年| 无码人妻一区二区三区在线视频| 久久精品国产亚洲av成人擦边 | 中文字幕亚洲一二三区| 欧美性生交大片免费看app麻豆| 日本丰满熟妇bbxbbxhd| 国产av一区二区三区丝袜| 美女与黑人巨大进入免费观看| 欧美成人猛交69| 国内精品一区视频在线播放| 经典亚洲一区二区三区| 亚洲精品视频中文字幕|