亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文語音情感識別的改0進(jìn)棧式自編碼結(jié)構(gòu)

        2017-07-26 18:00:44朱芳枚梁瑞宇王青云鄒采榮
        關(guān)鍵詞:特征情感

        朱芳枚 趙 力 梁瑞宇, 王青云 鄒采榮

        (1東南大學(xué)水聲信號處理教育部重點實驗室, 南京 210096)(2南京工程學(xué)院通信工程學(xué)院, 南京 211167)

        面向中文語音情感識別的改0進(jìn)棧式自編碼結(jié)構(gòu)

        朱芳枚1趙 力1梁瑞宇1,2王青云2鄒采榮1

        (1東南大學(xué)水聲信號處理教育部重點實驗室, 南京 210096)(2南京工程學(xué)院通信工程學(xué)院, 南京 211167)

        為進(jìn)一步提高漢語語音情感識別率,基于深度學(xué)習(xí)中的自編碼、降噪自編碼及稀疏自編碼的網(wǎng)絡(luò)結(jié)構(gòu),提出了一種改進(jìn)的棧式自編碼結(jié)構(gòu).該結(jié)構(gòu)第1層使用降噪自編碼學(xué)習(xí)一個比輸入特征維數(shù)更大的隱藏特征,第2層采用稀疏自編碼學(xué)習(xí)稀疏性特征,最后使用softmax分類器進(jìn)行分類識別.訓(xùn)練過程首先采用逐層預(yù)訓(xùn)練的方法,達(dá)到網(wǎng)絡(luò)參數(shù)全面初始化的目的,然后對整個網(wǎng)絡(luò)進(jìn)行微調(diào).在中文語音庫上的情感識別實驗顯示,相較于單獨(dú)使用棧式降噪或稀疏自編碼,所提結(jié)構(gòu)具有更好的識別效果.此外,基于CASIA庫的對比實驗顯示,該結(jié)構(gòu)比K近鄰算法、稀疏表示方法、傳統(tǒng)支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)識別率分別提高了53.7%,29.8%,14.3%和1.9%.在自行錄制的語音庫中,該結(jié)構(gòu)的識別率比人工神經(jīng)網(wǎng)絡(luò)提高了1.64%.

        語音情感識別;改進(jìn)的棧式自編碼;降噪自編碼;稀疏自編碼

        語音是人機(jī)交互最自然友好的方式之一,承載著說話人豐富的情感信息.但如今的人機(jī)交互并不能像人與人交流那樣自由,其原因是機(jī)器不能像人一樣判斷對方話語中的情感.語音情感識別在人工智能領(lǐng)域有著非常廣闊的未來,其終極目標(biāo)是讓機(jī)器能夠像人類一樣通過語音識別人類情感,實現(xiàn)更好的人機(jī)交互.

        在語音情感識別領(lǐng)域,主要的研究方向是特征提取和識別算法.目前,情感識別采用的特征都是基于實踐經(jīng)驗發(fā)現(xiàn)的常規(guī)特征,如圖像的SIFT特征、語音的HUWSF特征[1],但所選特征是否有效很大程度上依賴于經(jīng)驗和運(yùn)氣.在識別算法方面,使用廣泛的主要有K近鄰[2](KNN)、支持向量機(jī)[3](SVM)、softmax[4]以及人工神經(jīng)網(wǎng)絡(luò)(ANN)[5]等.這些算法都屬于監(jiān)督學(xué)習(xí)方法,取得了一定成功,但識別效率不高.因此,如何提高特征提取效率、挖掘潛在特征并提高識別率,仍然亟待研究.

        深度學(xué)習(xí)是基于人工神經(jīng)網(wǎng)絡(luò)概念提出的.深度學(xué)習(xí)的目的是通過組合低層特征形成更加抽象的高層特征,發(fā)現(xiàn)數(shù)據(jù)潛在的特征,使得學(xué)習(xí)到的特征在分類器上擁有比原始特征更好的識別率.深度學(xué)習(xí)屬于半監(jiān)督的學(xué)習(xí)方法,在使用人工神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)和算法的基礎(chǔ)上引入新的技術(shù),解決了在使用反向傳播算法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時梯度消失等問題[6].

        基于對深度學(xué)習(xí)網(wǎng)絡(luò)的研究,針對漢語語音情感識別問題,本文提出了一種改進(jìn)的棧式自編碼結(jié)構(gòu),其結(jié)合了降噪自編碼和稀疏自編碼的優(yōu)點,提取具有魯棒性和稀疏性的語音情感二次特征.仿真實驗基于2個中文語音庫進(jìn)行,即由本實驗室和三星公司合作錄制的普通話語音情感庫和CASIA語音庫[7].與KNN,SVM,softmax,稀疏表示[8](SR)以及神經(jīng)網(wǎng)絡(luò)的分類效果進(jìn)行對比,結(jié)果顯示本文提出的改進(jìn)自編碼結(jié)構(gòu)識別率更高.其中,在CAISA語音庫中,算法識別效果遠(yuǎn)遠(yuǎn)優(yōu)于KNN與稀疏表示的方法,相較于傳統(tǒng)分類SVM,softmax和人工神經(jīng)網(wǎng)絡(luò),識別率分別提高了14.3%,14.7%和1.9%.在合作錄制的語音庫中,本文提出方法的識別率比人工神經(jīng)網(wǎng)絡(luò)提高了1.64%.

        1 特征提取與去相關(guān)

        在深度學(xué)習(xí)中,網(wǎng)絡(luò)的輸入通常使用原始數(shù)據(jù),由于一條語音樣本通常有幾萬個樣本點,因此將原始語音信號直接輸入到深度網(wǎng)絡(luò)中對硬件的要求太高.為解決這一問題,算法首先提取語音信號的聲學(xué)特征,然后使用深度網(wǎng)絡(luò)對特征進(jìn)行二次提?。谶M(jìn)行特征值提取之前,算法先對原始語音信號進(jìn)行預(yù)處理,主要包括預(yù)加重、分幀、加窗、端點檢測[9].常用的聲學(xué)特征分為三大類:韻律特征、音質(zhì)特征和頻譜特征.其中,韻律特征包括基音周期、振幅和發(fā)音持續(xù)時間等;音質(zhì)特征包括共振峰、能量與過零率等;頻譜特征包括線性倒譜系數(shù)LPCC,MFCC以及差分MFCC等.目前,情感識別最常用的特征是基本的聲學(xué)參數(shù),加上其統(tǒng)計特征[9]所組成的特征向量.因此,實驗采用openSMILE工具包提取每條語音的988維特征矢量.選取的特征包括語音強(qiáng)度、語音響度、12階MFCC、基音周期、過零率、線譜頻率等特征.此外,為了獲取穩(wěn)定的全局特征,算法計算了這些特征的統(tǒng)計參數(shù),包括極值、均值、標(biāo)準(zhǔn)差、算數(shù)平均數(shù)、偏度、峰度等.最后,為了降低特征間的冗余度,算法使用PCA白化的方式對特征矢量進(jìn)行去相關(guān)操作.

        2 改進(jìn)棧式自編碼

        2.1 棧式自編碼原理

        棧式自編碼[6]是通過連接多個自編碼器組成的深度神經(jīng)網(wǎng)絡(luò).訓(xùn)練自編碼器[10-11]是一種無監(jiān)督的過程,它嘗試學(xué)習(xí)一個恒等函數(shù).首先,在訓(xùn)練階段學(xué)習(xí)一個編碼器,然后通過解碼器對其進(jìn)行解碼,通過編碼器的輸入和解碼器輸出之間的誤差,反向調(diào)節(jié)編碼器參數(shù).自編碼器的工作原理如圖1所示,其中f,g分別表示編碼器和解碼器.

        圖1 自編碼器原理圖

        假設(shè)輸入數(shù)據(jù)為x,x通過編碼器f后可得編碼h=f(x),再通過解碼器g可得到x的重建信號z,即z=g(h)=g(f(x)).訓(xùn)練自編碼器過程中,目標(biāo)函數(shù)用重建誤差L表示,本文使用均方誤差作為重建誤差,即L=‖z-x‖2.

        通過最小化目標(biāo)函數(shù),算法實現(xiàn)了對自編碼器的訓(xùn)練.當(dāng)訓(xùn)練完成后,編碼h可作為分類特征,該特征比原始數(shù)據(jù)特征具有更強(qiáng)的魯棒性[12].為了防止自編碼器學(xué)習(xí)到一個平凡解,即輸出等于輸入,在自編碼器中加入一些正則項,具體包括:

        2) 針對有噪聲的數(shù)據(jù)衍生出降噪自編碼.

        2.2 改進(jìn)的棧式自編碼結(jié)構(gòu)

        一般的深度學(xué)習(xí)網(wǎng)絡(luò)總是使用同一種自編碼器或者自編碼器的變體進(jìn)行深度堆疊.針對簡單多層堆疊影響識別率的問題,本文提出一種結(jié)合降噪自編碼和稀疏自編碼的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu).降噪自編碼最大的優(yōu)勢是學(xué)習(xí)到的特征維數(shù)不受輸入維數(shù)的限制,從而得到比輸入維數(shù)大很多的隱層特征,這也更利于降噪自編碼學(xué)習(xí)得到數(shù)據(jù)本身的分布.由于本文研究的語音情感識別并不是直接通過原始數(shù)據(jù)學(xué)習(xí)特征,而是通過低維特征進(jìn)行學(xué)習(xí),直接堆疊多層降噪自編碼會嚴(yán)重影響識別效果.為此,算法在降噪自編碼后加入稀疏自編碼,從而可以在不過多降低維數(shù)的情況下得到更稀疏但信息丟失更少的特征.由此可見,該結(jié)構(gòu)綜合了降噪自編碼和稀疏自編碼的優(yōu)點.

        改進(jìn)的棧式自編碼結(jié)構(gòu)如圖2所示.輸入x∈Rd0通過降噪自編碼獲得一個比輸入維數(shù)更大的隱藏輸出h1∈Rd1(d1>d0).隨后降噪自編碼的輸出h1進(jìn)入稀疏自編碼進(jìn)行稀疏學(xué)習(xí),其輸出h2∈Rd2直接進(jìn)入分類器.這里分類器是可選的,本文選擇softmax分類器.整個訓(xùn)練過程分為預(yù)訓(xùn)練和微調(diào)2部分.預(yù)訓(xùn)練采用逐層對深度網(wǎng)絡(luò)參數(shù)進(jìn)行初始化的方法,該方式比隨機(jī)初始化更合理有效,也極大地改善了參數(shù)對梯度傳播不敏感的問題.此外,通過反向傳播算法,系統(tǒng)可以進(jìn)一步微調(diào)網(wǎng)絡(luò)參數(shù),獲得更加強(qiáng)健的模型.

        圖2 改進(jìn)的棧式自編碼結(jié)構(gòu)

        圖3 降噪自編碼原理圖

        該結(jié)構(gòu)的第2層為稀疏自編碼.為了學(xué)習(xí)特征的稀疏表示,對自編碼器加入某些稀疏性限制,可使其在網(wǎng)絡(luò)學(xué)習(xí)中表現(xiàn)出更優(yōu)的性能[12].由自編碼原理可知根據(jù)隱藏層可以重建輸入層,當(dāng)限制隱藏層編碼h2維數(shù)小于輸入x的維數(shù)時,可以學(xué)習(xí)到原始數(shù)據(jù)的壓縮表示.但當(dāng)隱藏神經(jīng)元數(shù)量較大時,通過給自編碼神經(jīng)網(wǎng)絡(luò)施加稀疏性限制[14],該網(wǎng)絡(luò)仍然可以發(fā)現(xiàn)數(shù)據(jù)的一些潛在特性.

        (1)

        (2)

        (3)

        式中,L(W,b)可以是均方誤差也可以是交叉熵;β控制稀疏性懲罰因子在代價函數(shù)中的權(quán)重.通過隨機(jī)梯度下降算法可訓(xùn)練得到合適的參數(shù)(W,b).

        2.3 算法流程

        本文提出的改進(jìn)棧式自編碼結(jié)構(gòu)訓(xùn)練和測試過程如圖4所示.訓(xùn)練過程的第1步是預(yù)訓(xùn)練,預(yù)訓(xùn)練是一個非監(jiān)督過程,首先使用語音情感特征訓(xùn)練降噪自編碼層,來學(xué)習(xí)語音情感特征的潛在表示(LR),學(xué)習(xí)策略是使用LR重建輸入信號,并使用梯度下降法最小化重建信號與輸入信號的誤差.當(dāng)誤差滿足要求時,則表明一個降噪自編碼訓(xùn)練完成.同理,使用降噪自編碼的輸出訓(xùn)練一個稀疏自編碼.訓(xùn)練過程的第2步是微調(diào):將預(yù)訓(xùn)練得到的2個自編碼器級聯(lián),并在尾部加入一個softmax分類器,級聯(lián)后網(wǎng)絡(luò)實際上是一個神經(jīng)網(wǎng)絡(luò),通過計算分類器分類結(jié)果與真實標(biāo)簽之間的誤差,對誤差求梯度,并使用反向傳播算法對各層參數(shù)進(jìn)行微調(diào).測試過程如圖4(b)所示,將測試集的特征輸入由圖4(a)訓(xùn)練得到的改進(jìn)棧式自編碼網(wǎng)絡(luò),可對測試集進(jìn)行預(yù)測.

        (a) 訓(xùn)練過程

        (b) 測試過程

        3 實驗設(shè)置

        本文實驗使用了2個語音情感庫.一個語音數(shù)據(jù)庫是CASIA,由中科院自動化所錄制,由4位錄音人(2男2女)在純凈的環(huán)境下錄制,信噪比約為35 dB,采樣率為16 kHz,以16 bit存儲.共包括6種情感,分別是生氣、害怕、高興、中性、傷心、驚訝.庫中一共有5句語料,由4位說話人對5句語料用6種情感分別進(jìn)行演繹.共有1 200個語音樣本,每種情感各包括200個樣本.另一個語音庫是由本實驗室和三星公司合作錄制的普通話語音情感庫,共包括5種情感,分別為生氣、煩躁、開心、傷心、中性.由16位(8男8女)說話人對20句語料用5種情感分別進(jìn)行演繹.一個人對同種情感可以進(jìn)行多次演繹,最后再由未參與錄制的人員對每條語句情感類別進(jìn)行篩選,最終生氣、煩躁、高興、中性和傷心情感各有854,1 310,1 009,1 064和1 462個樣本.

        為了驗證本文提出的改進(jìn)棧式自編碼結(jié)構(gòu)的有效性,選取了語音情感識別領(lǐng)域最常使用的一些機(jī)器學(xué)習(xí)算法進(jìn)行對比實驗,包括KNN,softmax,SVM,稀疏表示和神經(jīng)網(wǎng)絡(luò).同時設(shè)計實驗比較本文提出的改進(jìn)棧式自編碼、棧式降噪自編碼及棧式稀疏自編碼3種結(jié)構(gòu)的性能.由于在語音情感方面中文數(shù)據(jù)庫并不多且每個庫中的樣本量少,實驗采用5折交叉驗證,并取平均值作為最終的識別率.

        4 結(jié)果與討論

        4.1 分類器識別率比較

        表1給出了不同分類器在CASIA語音庫上的識別率.可看出,分類器KNN效果較差,識別率僅為36.25%.稀疏表示方法的識別率雖有所提升,為51.15%,但也不高且訓(xùn)練時間較長.分類器softmax和SVM識別效果相對較好,分別為66.25%和66.67%.

        表1 不同分類器在CASIA語音庫上的識別率 %

        4.2 不同隱藏層數(shù)的神經(jīng)網(wǎng)絡(luò)比較

        表2給出了不同隱藏層數(shù)目的神經(jīng)網(wǎng)絡(luò)(均加入L1正則項,下同)在CAISA語音庫與合作錄制語音庫上的識別率,對包含1,2,3個隱藏層的神經(jīng)網(wǎng)絡(luò)進(jìn)行了對比.從表2可看出,當(dāng)隱藏層數(shù)為2時,2個語音庫都達(dá)到最優(yōu)識別率,分別為79.05%和76.51%.隱藏層數(shù)為1和3時神經(jīng)網(wǎng)絡(luò)的識別率相對較低,這也從側(cè)面說明在使用神經(jīng)網(wǎng)絡(luò)時并不是層數(shù)越多越好.這主要是由于與圖像識別輸入的是原始像素點不同,神經(jīng)網(wǎng)絡(luò)輸入的是從語音信號中提取的情感特征,將已提取的特征輸入神經(jīng)網(wǎng)絡(luò)中進(jìn)行識別時,網(wǎng)絡(luò)的層數(shù)不宜過高.

        表2 不同隱藏層數(shù)的神經(jīng)網(wǎng)絡(luò)在語音庫上的識別率 %

        4.3 不同類型自編碼器的比較

        表3對棧式降噪自編碼、棧式稀疏自編碼以及改進(jìn)棧式自編碼的識別率進(jìn)行了比較.從表3可看出,在CASIA語音庫中本文提出的方法識別率為80.95%,相比于直接使用棧式降噪自編碼和棧式稀疏自編碼分別提高3.81%和2.38%.在合作錄制語音庫中,本文提出的方法相比于直接使用棧式降噪自編碼和棧式稀疏自編碼,識別率分別提高2.64%和1.92%,比神經(jīng)網(wǎng)絡(luò)提高約1.64%.

        表3 改進(jìn)棧式自編碼在語音庫上的識別率 %

        為了更直觀地對各個分類器的效果進(jìn)行對比,將各個分類器的識別率繪制在圖5中,圖中神經(jīng)網(wǎng)絡(luò)指的是包含2個隱藏層的神經(jīng)網(wǎng)絡(luò).圖5表明,與KNN、稀疏表示方法、SVM和softmax相比,本文提出的改進(jìn)棧式自編碼結(jié)構(gòu)識別率分別提高了約53.7%,29.8%,14.7%和14.3%.本文方法與2層神經(jīng)網(wǎng)絡(luò)相比,識別率提高了1.9%.

        圖5 各個分類器在CASIA語音庫上的識別率

        降噪自編碼結(jié)構(gòu)可以從被損壞的數(shù)據(jù)中學(xué)習(xí)到魯棒性較好的特征,稀疏自編碼結(jié)構(gòu)通過限制神經(jīng)元被激活的閾值可以學(xué)習(xí)到較稀疏的特征.改進(jìn)棧式自編碼結(jié)構(gòu)首先對加入一定噪聲的語音情感特征使用降噪自編碼進(jìn)行學(xué)習(xí),得到一個維數(shù)較高的特征潛在表示h1,然后使用稀疏自編碼對h1進(jìn)行稀疏自編碼學(xué)習(xí)得到潛在表示h2.這使得該網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了降噪自編碼和稀疏自編碼的優(yōu)勢,比一般的神經(jīng)網(wǎng)絡(luò)直接輸入特征進(jìn)行訓(xùn)練的模式具有更強(qiáng)的對抗噪聲的能力以及稀疏化特征的能力,通過微調(diào)網(wǎng)絡(luò)后,可以達(dá)到比現(xiàn)有神經(jīng)網(wǎng)絡(luò)更好的效果.

        5 結(jié)語

        針對目前情感識別效率不高的問題,本文結(jié)合稀疏自編碼和降噪自編碼結(jié)構(gòu)的優(yōu)點,提出了一種改進(jìn)的兩層棧式自編碼結(jié)構(gòu).該結(jié)構(gòu)可利用降噪自編碼與稀疏自編碼的優(yōu)勢,其學(xué)習(xí)得到的二次特征具有魯棒性和稀疏性.由實驗結(jié)果可知,本文提出的改進(jìn)棧式自編碼結(jié)構(gòu)在中文語音情感識別庫中具有較好的識別率,比單獨(dú)使用棧式降噪自編碼和棧式稀疏自編碼效果更好.在CASIA語音庫的仿真實驗中,識別率比SVM提高約14.3%,相較于softmax分類器識別率提高了14.7%,比添加L1范數(shù)正則項的神經(jīng)網(wǎng)絡(luò)提高了1.9%.在合作錄制的語音庫中,本文提出的結(jié)構(gòu)識別率比神經(jīng)網(wǎng)絡(luò)提高約1.64%.

        未來擬在其他語種數(shù)據(jù)庫上進(jìn)行實驗,嘗試設(shè)計一種跨庫的情感識別模型;設(shè)計合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和LSTM網(wǎng)絡(luò)結(jié)構(gòu)對語音情感進(jìn)行識別.

        References)

        [1]Sun Y X, Wen G H, Wang J B. Weighted spectral features based on local Hu moments for speech emotion recognition[J].BiomedicalSignalProcessingandControl, 2015, 18: 80-90. DOI:10.1016/j.bspc.2014.10.008.

        [2]張昕然, 查誠, 徐新洲,等. 基于LDA+kernel+KNNFLC的語音情感識別方法[J]. 東南大學(xué)學(xué)報(自然科學(xué)版), 2015, 45(1):5-11. DOI: 10.3969/j.issn.1001-0505.2015.01.002. Zhang Xinran, Zha Cheng, Xu Xinzhou, et al.Speech emotion recognition based on LDA+kernel+KNNFLC[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2015, 45(1):5-11.DOI: 10.3969/j.issn.1001-0505.2015.01.002.(in Chinese)

        [3]Burges C J C. A tutorial on support vector machines for pattern recognition[J].DataMining&KnowledgeDiscovery, 1998, 2(2):121-167.

        [4]UFL DL. Softmax regression [EB/OL].(2013-04-07)[2016-11-10].http://deeplearning.stanford.edu/wiki/index.php/Softmax-Regression.

        [5]Hassoun M H. Fundamentals of artificial neural networks[J].ProceedingsoftheIEEE, 1996, 84(6): 906. DOI:10.1109/jproc.1996.503146.

        [6]Bengio Y, Courville A. Deep learning of representations[M]//HandbookonNeuralInformationProcessing. Berlin:Springer, 2013:1-28.

        [7]韓文靜, 李海峰. 情感語音數(shù)據(jù)庫綜述[J]. 智能計算機(jī)與應(yīng)用, 2013, 3(1): 5-7. DOI:10.3969/j.issn.2095-2163.2013.01.002. Han Wenjing, Li Haifeng. A brief review on emotional speech databases[J].IntelligentComputerandApplications, 2013, 3(1): 5-7. DOI:10.3969/j.issn.2095-2163.2013.01.002.(in Chinese)

        [8]Aharon M, Elad M, Bruckstein A. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEETransactionsonSignalProcessing, 2006, 54(11):4311-4322. DOI:10.1109/tsp.2006.881199.

        [9]蔣丹寧, 蔡蓮紅. 基于語音聲學(xué)特征的情感信息識別[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2006, 46(1): 86-89. DOI:10.3321/j.issn:1000-0054.2006.01.023. Jiang Danning, Cai Lianhong. Speech emotion recognition using acoustic features[J].JournalofTsinghuaUniversity(ScienceandTechnology), 2006, 46(1): 86-89. DOI:10.3321/j.issn:1000-0054.2006.01.023.(in Chinese)

        [10]Bengio Y. Learning deep architectures for AI[J].FoundationsandTrends?inMachineLearning, 2009, 2(1):1-127. DOI:10.1561/2200000006.

        [11]Deng J, Zhang Z, Eyben F, et al. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J].IEEESignalProcessingLetters, 2014, 21(9):1068-1072.

        [12]Chen X, Li M, Yang X Q. Stacked denoise autoencoder based feature extraction and classification for hyperspectral images[J].JournalofSensors, 2016, 2016: 3632943. DOI:10.1155/2016/3632943.

        [13]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedingsofthe25thInternationalConferenceonMachineLearning. Helsinki, Finland, 2008. DOI:10.1145/1390156.1390294.

        [14]Deng J, Zhang Z X, Marchi E, et al. Sparse autoencoder-based feature transfer learning for speech emotion recognition[C]//HumaineAssociationConferenceonAffectiveComputingandIntelligentInteraction. Geneva,Switzerland, 2013:511-516. DOI:10.1109/acii.2013.90.

        Improved stacked autoencoder for Chinese speech emotion recognition

        Zhu Fangmei1Zhao Li1Liang Ruiyu1,2Wang Qingyun2Zou Cairong1

        (1Key Laboratory of Underwater Acoustic signal Processing of Ministry of Education,Southeast University, Nanjing 210096, China)
        (2School of Communication Engineering, Nanjing Institute of Technology, Nanjing 211167, China)

        An improved stacked autoencoder based on autoencoder, denoising autoencoder and sparse autoencoder is proposed to improve the Chinese speech emotion recognition. The first layer of the structure uses a denoising autoencoder to learn a hidden feature with a larger dimension than the dimension of the input features, and the second layer employs a sparse autoencoder to learn sparse features.Finally, a softmax classifer is applied to classify the features. In the training process, the layer-wise pre-training is used to achieve the purpose of initializing all parameters of the network, and then the whole network is fine-tuned. The experiments on Chinese databases show that the improved stacked autoencoders achieve a better recognition rate than the stacked denoising autoencoders or stacked sparse autoencoders. In addition, the comparative experiments based on CASIA database show that the recognition rate of the structure is improved by 53.7%, 29.8%, 14.3% and 1.9%, respectively, compared with the K-nearest neighbor algorithm, the sparse representation method, the traditional support vector machine and the artificial neural network. The recognition rate of this structure is 1.64% higher than the artificial neural network on the self-recording database.

        speech emotion recognition; enhanced stacked autoencoder; denoising autoencoder; sparse autoencoder

        10.3969/j.issn.1001-0505.2017.04.001

        2016-12-10. 作者簡介: 朱芳枚(1992—),女,碩士生;趙力(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,zhaoli@seu.edu.cn.

        國家自然科學(xué)基金資助項目(61375028,61571106,61673108)、江蘇省青藍(lán)工程資助項目、江蘇省博士后科研資助計劃資助項目(1601011B)、江蘇省“六大人才高峰”資助項目(2016-DZXX-023)、中國博士后科學(xué)基金資助項目(2016M601695).

        朱芳枚,趙力,梁瑞宇,等.面向中文語音情感識別的改進(jìn)棧式自編碼結(jié)構(gòu)[J].東南大學(xué)學(xué)報(自然科學(xué)版),2017,47(4):631-636.

        10.3969/j.issn.1001-0505.2017.04.001.

        TP391.42

        A

        1001-0505(2017)04-0631-06

        猜你喜歡
        特征情感
        抓住特征巧觀察
        如何在情感中自我成長,保持獨(dú)立
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        不忠誠的四個特征
        如何在情感中自我成長,保持獨(dú)立
        抓住特征巧觀察
        亚洲av成人片色在线观看高潮 | 欧美放荡的少妇| 毛片免费在线播放| 亚洲综合色婷婷七月丁香| 日韩少妇人妻精品中文字幕| 国产精品无码久久综合| 野外性史欧美k8播放| 日韩精品视频在线观看免费| av毛片亚洲高清一区二区| 高h小月被几个老头调教| 丰满人妻被中出中文字幕| 白丝美女被狂躁免费视频网站| 亚洲综合一区二区三区久久| 少妇高潮太爽了在线视频| 久久久久亚洲av无码专区| 亚洲欧美日韩在线精品2021| 在线观看国产一区二区av| 亚洲欧美牲交| 欧美在线视频免费观看| 妇女自拍偷自拍亚洲精品| 91视色国内揄拍国内精品人妻| 成人午夜性a级毛片免费| 色老头久久综合网老妇女| 亚洲av国产精品色a变脸| 无码熟妇人妻av在线网站| 国产美女露脸口爆吞精| 久久久久久免费播放一级毛片| 亚洲天堂av在线免费观看| 北条麻妃国产九九九精品视频| 视频一区欧美| 色妞一区二区三区免费视频| 狠狠躁天天躁无码中文字幕图| 最近日本中文字幕免费完整| 99久久精品久久久| 国产剧情av麻豆香蕉精品| 国产成人亚洲精品青草天美| 国产乱色国产精品免费视频| 久久黄色精品内射胖女人| 国语自产偷拍在线观看| 2021国产视频不卡在线| 一区二区三区视频偷拍|