亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

<ul id="qoyg0"><pre id="qoyg0"></pre></ul>

?

基于改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)的語音情感識別技術(shù)研究?

2017-12-18 06:22:43王穎

計算機(jī)與數(shù)字工程 2017年11期

關(guān)鍵詞：段長度識別率時序

王穎

（東北石油大學(xué)計算機(jī)與信息技術(shù)學(xué)院大慶 163000）

基于改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)的語音情感識別技術(shù)研究?

王穎

（東北石油大學(xué)計算機(jī)與信息技術(shù)學(xué)院大慶 163000）

語音情感特征從時間粒度的角度可分為全局統(tǒng)計特征和瞬時特征。針對語音情感的動態(tài)特性，提出一種改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)語音情感識別。網(wǎng)絡(luò)模型將全局特征信號與時序信號作為輸入，并根據(jù)輸入信號特征自動修改網(wǎng)絡(luò)結(jié)構(gòu)，不僅實現(xiàn)全局特征信號與時序信號的融合，還提供系統(tǒng)整體識別率。

語音情感特征；改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)；全局特征信號；時序特征信號

1 引言

語音情感識別研究的開展距今已有30余年的歷史，在此期間，它得到了世界范圍內(nèi)相關(guān)研究者們的廣泛關(guān)注，也取得了一些令人矚目的成績，如其在遠(yuǎn)程網(wǎng)絡(luò)教學(xué)、醫(yī)療輔助、反恐偵測和客戶服務(wù)等領(lǐng)域的應(yīng)用得到廣泛認(rèn)可。尤其將人工智能應(yīng)用于語音情感識別領(lǐng)域后，更是取得了不俗的成績［1］。在此期間也針對語音情感識別提出了許多新型的神經(jīng)網(wǎng)絡(luò)模型，如韓文靜等提出的GCElman和何亮提出的IN-GABP在語音情感識別方面都取得了較好的成績［2～6］。

在取得以上成績的同時也面臨著諸多問題的考驗與挑戰(zhàn)，如網(wǎng)絡(luò)模型訓(xùn)練時間和訓(xùn)練樣本的選取。尤其對于作為輸入的語音情感特征信號的選取將直接決定識別的成功幾率［7］。在此之前一些網(wǎng)絡(luò)模型均只單獨針對短時時序特征信號進(jìn)行識別或語段特征信號進(jìn)行識別，本文在前人的基礎(chǔ)上進(jìn)行學(xué)習(xí)和研究，并對傳統(tǒng)的Elman神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化，提出一種優(yōu)化的Elman神經(jīng)網(wǎng)絡(luò)模型，可根據(jù)輸入特征信號自動修改網(wǎng)絡(luò)模型結(jié)構(gòu)，一方面能夠?qū)⑷纸y(tǒng)計特征和時序特征進(jìn)行有效的融合，另一方面能夠有效的提高系統(tǒng)的整體識別率［8～12］。

2 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型

2.1 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型

Elman神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)動態(tài)神經(jīng)網(wǎng)絡(luò)除包含輸入、輸出和隱含層外還包含一個連接層，負(fù)責(zé)記憶前一時刻的輸出，基于此特性，Elman神經(jīng)網(wǎng)絡(luò)被應(yīng)用在在語音情感識別領(lǐng)域［13］。

當(dāng)以語句情感征作為輸入時，基于Elman神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點，根據(jù)連接層記錄的前一時刻的輸出，結(jié)合當(dāng)前時刻的輸出語音情感識別和分析取得較好的成績。但當(dāng)輸入為語段情感特征時，傳統(tǒng)Elman神經(jīng)網(wǎng)絡(luò)退化為MLP網(wǎng)絡(luò)，失去其連接層的延時算子特性。因此有學(xué)者提出了基于全局特征的Elman神經(jīng)網(wǎng)絡(luò)模型，如OHF Elman神經(jīng)網(wǎng)絡(luò)模型［14］和GCElman神經(jīng)網(wǎng)絡(luò)模型等［15］。但大多數(shù)適用于全局時序特征的網(wǎng)絡(luò)模型均增加了網(wǎng)絡(luò)模型結(jié)構(gòu)復(fù)雜度，以時間為代價來換取識別準(zhǔn)確度，但當(dāng)識別信號為基于語句的時序信號時，此類網(wǎng)絡(luò)模型雖增加了網(wǎng)絡(luò)訓(xùn)練時間卻并沒有換來識別精度的顯著提高，比較浪費資源甚至容易陷入局部極小值導(dǎo)致無法收斂［16］。

針對以上問題，本文提出一種新的改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型包括輸入層、隱含層、輸出層以及兩個連接層。網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。其中輸入層包括兩部分：全局控制信號和時序信號。兩個連接層：連接層1為隱含層的延時算子，負(fù)責(zé)記憶隱含層前一時刻的輸出；承接層2為輸出層的延時算子，負(fù)責(zé)記憶輸出層前一時刻的輸出。兩個連接層分別構(gòu)造了各自的自反饋回路，并通過各自的自反饋增益因子實現(xiàn)系統(tǒng)動態(tài)回溯系統(tǒng)當(dāng)前狀態(tài)前一時刻的信息甚至更為先前時刻的信息。改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)模型較傳統(tǒng)Elman網(wǎng)絡(luò)模型在輸入層增加了特征信號的輸入，當(dāng)特征信號為全局特征信號時，網(wǎng)絡(luò)的連接層1負(fù)責(zé)記憶隱含層的前一時刻輸出，連接層2負(fù)責(zé)記憶輸出層的前一時刻輸出，并與當(dāng)前時刻的輸入一起反饋到網(wǎng)絡(luò)模型中，能夠有效提高基于語段的全局特征信號的識別。當(dāng)特征信號為時序信號特征時，根據(jù)特征信號系數(shù)網(wǎng)絡(luò)模型將自動刪除連接層2，僅依靠前一時刻隱含層的輸出與當(dāng)前時刻輸出對基于語句的特征信號進(jìn)行識別，以減少網(wǎng)絡(luò)運行時間。

圖1 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)

2.2 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型

改進(jìn)Elman網(wǎng)絡(luò)數(shù)據(jù)模型：

其中W1、W2、W3、W4、W5分別為輸入層至隱含層，連接層1至隱含層，隱含層至輸出層，連接層2至隱含層，連接層2至輸出層的連接權(quán)值；x1(k)和x2(k)分別為連接層1和連接層2的輸出；α(0≤α≤1)和 β(0≤β≤1)為連接層1和連接層2的子反饋增益因子；θ(θ∈{0，1})為輸入信號特征系數(shù)，當(dāng)輸入信號為全局統(tǒng)計特征時為1，當(dāng)輸入為時序特征信號時為0；f(·)為隱含層神經(jīng)元的傳遞函數(shù)，本文采用Sigmoid函數(shù)，g(·)為輸出層神經(jīng)元的激活函數(shù)，本文采用線性函數(shù)。

2.3 改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)算法

改進(jìn)Elman網(wǎng)絡(luò)采用動態(tài)BP算法對權(quán)值進(jìn)行修正，設(shè)第k步系統(tǒng)的實際輸出為 y(k)，定義誤差函數(shù)為

分別計算E(k)對連接權(quán)限值的偏導(dǎo)數(shù)，并使其等于0，可得到改進(jìn)后的Elman網(wǎng)絡(luò)學(xué)習(xí)算法

上式中：

其中 δ1、δ2、δ3、δ4、δ5分別為W1、W2、W3、W4、W5的學(xué)習(xí)步長；m、n、r分別為輸入層、輸出層、隱含層神經(jīng)元的個數(shù)。式（10）和式（11）構(gòu)成了梯度的動態(tài)遞推關(guān)系，因而可以實現(xiàn)對高階系統(tǒng)的有效辨識。

3 基于改進(jìn)Elman網(wǎng)絡(luò)語音情感識別網(wǎng)絡(luò)模型訓(xùn)練

語音情感特征從時間粒度的角度可分為全局統(tǒng)計特征和瞬時特征。全局統(tǒng)計特征用來描述語音在語句時長內(nèi)的韻律學(xué)變化，它表征的是語音超音段方面的信息，一般認(rèn)為全局統(tǒng)計特征對情感區(qū)分度較大。瞬時時序特征，即語音特征，主要用來描述語音的頻譜特性，它在語音的內(nèi)容識別領(lǐng)域被廣法運用，對語義的區(qū)分度較大。

本文提出Elman網(wǎng)絡(luò)模型可根據(jù)輸入信號類型在后臺自動修改網(wǎng)絡(luò)結(jié)構(gòu)，以適應(yīng)不同類型信號的語音情感分析。與傳統(tǒng)Elman神經(jīng)網(wǎng)絡(luò)輸入信號不同，改進(jìn)Elman神經(jīng)網(wǎng)絡(luò)輸入層中包含全局控制信號和時序特征信號兩部分內(nèi)容。訓(xùn)練過程中當(dāng)某一樣本的輸入為全局統(tǒng)計特征信號時，網(wǎng)絡(luò)模型可自動過濾掉基于語句的時序特征，只接受該樣本中基于語段的特征，并自動調(diào)整該樣本的網(wǎng)絡(luò)輸出向量，保證其為本樣本所屬的情感類別向量。

3.1 基于時序特征的語音情感識別

本文從基音頻率參數(shù)、共振峰參數(shù)和短時能量參數(shù)中選取了24個特征參數(shù)。其中1～8為基音頻率參數(shù)，包括：基頻最大值、基頻最小值、基頻變化范圍、基頻局部最小值分布、基頻的均值、基頻方差、基頻變化率的均值、基頻變化率的方差；9～14為共振峰參數(shù)，包括：第一、二、三共振峰均值及其對應(yīng)共振峰方差。15～24為短時能量參數(shù)，包括：短時能量及其差分的均值、最大值、最小值、中值、方差。

表1 前10最佳特征

本文使用fisher準(zhǔn)則對所選取的特征參數(shù)進(jìn)行特征評價，并選出了前10個最佳特征。

識別結(jié)果如表2所示。

表2 最佳特征組合識別結(jié)果

3.2 基于語段特征的語音情感識別

為驗證時序特性對情感識別率的影響，本文分別選取24種情況的語段長度。從10幀/段開始至240幀/段，以10幀的步長增長。為了保證實驗過程中所使用的測試樣本的語段長度與訓(xùn)練樣本的語段長度相同，便于對測試結(jié)果進(jìn)行交叉驗證，根據(jù)語段的長度的情況，對應(yīng)的選取了24組訓(xùn)練樣本。

24組訓(xùn)練樣本全部訓(xùn)練完成后輸入測試樣本進(jìn)行驗證。通過測試樣本得出的驗證結(jié)果如圖2所示。通過圖2可以看出，不同的語段長度情感識別的結(jié)果也不相同，當(dāng)識別率到160幀/段時識別的準(zhǔn)確度最高，可達(dá)到68.7%，由此可得出160幀/段為識別的最佳語段長度。

圖2 基于語段情感識別結(jié)果

4 實驗結(jié)果分析

上一節(jié)通過對網(wǎng)絡(luò)模型訓(xùn)練及驗證得出圖3～圖6所示各類情感識別結(jié)果。如圖3所示，生氣情感的最佳識別語段長度為60幀/段，在該語段長度下，情感識別率可達(dá)到92.6%；如圖4所示，當(dāng)語段長度為180幀/段時高興情感的識別率為最高，在該語段長度下，語音情感識別的識別率為58.3%；圖5中所示悲傷情感在語段長度為160幀/段時識別率達(dá)到最高，最高識別率為98.8%；圖6中所示驚奇的情感在語段長度為110幀/段時識別為75.7%，已達(dá)到該情感識別率的最高值。

圖3 生氣情感識別結(jié)果

圖4 高興情感識別結(jié)果

圖5 悲傷情感識別結(jié)果

圖6 驚訝情感識別結(jié)果

圖2 和圖3到圖6所示的實驗結(jié)果表明：語段的長度對情感識別率有較大的影響。而全局統(tǒng)計特征在一定程度能夠使某類情感的識別率達(dá)到最高，但并不能保證使系統(tǒng)的平均識別率達(dá)到最優(yōu)。平均識別率在語段長度小于160幀/段時整體呈現(xiàn)上升趨勢，當(dāng)語段長度等于160幀/段時達(dá)到最高，語段長度大于160幀/段時開始呈現(xiàn)下降趨勢。并且每種情感的最佳識別語段長度各不相同，高興和悲傷的最佳語段相對較長，生氣和驚奇相對較短，據(jù)此推測人耳對不同類別情感的敏感段長也不同。另外通過比較4類情感的識別率，發(fā)現(xiàn)在目前使用的情感特征和識別模型基礎(chǔ)上，悲傷類情感最容易被識別，相反對高興類情感的識別性能差強(qiáng)人意。

5 結(jié)語

本文提出一種改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并將其應(yīng)用于語音情感識別領(lǐng)域，通過仿真實驗取得了較好的識別效果。實驗證明改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)模型能夠有效地對全局統(tǒng)計特征和時序特征進(jìn)行融合，在保證網(wǎng)絡(luò)訓(xùn)練不陷入局部極小值而導(dǎo)致無法收斂的情況下能有效提高系統(tǒng)的整體識別率。

［1］Kennedy J，Eberhart R C.Particle swarms optimization［C］//Proceedings of IEEE International Conference on Neural Networks，USA，1995：1942-1948.

［2］Ammar W，Nirod C，Tan K.Solving shortest path problem usingparticle swarm optimization［J］.Soft Computing，2008，8（4）：1643-1653.

［3］ Marcio S，Evaristo C.Nonlinear parameter estimation through particle swarm optimization［J］.Chemical Engineering Science，2008，63（6）：1542-1552.

［4］C.J.Lin，S.J.Hong.The Design of Neuro-fuzzy Networks Using Particle Swarm Optimization and Recursive Singular Value Decomposition［J］.Neurocomputing，2007，71（1-3）：297-310.

［5］T.Souda，A.Silva，A.Neves.Particle Swarm based Data Mining Algorithms for classification task［J］.Parallel Computing，2004，（30）：767-783.

［6］F.Sahin，M.?.Yavuz，Z.Arnavut，?.Uluyol.Fault Diagnosis for Airplane Engines Using Bayesian Networks and Distributed Particle Swarm Optimization［J］.Parallel Computing，2007，33（2）：124-143.

［7］Hyun K，Kim J H.Quantum-inspired evolutionary algorithm fora class of combinational optimization［J］.IEEE Transactions on Evolutionary Computing，2002，6（6）：580-593.

［8］Shi Yuhui，Eberhart R.A Modified Particle Swarm Optimizer［C］//Proc.of IEEE International Conference on Evolutionary omputation.Anchorage，Alaska，USA：［s.n.］，2007.

［8］黃程韋，趙艷等.實用語音情感的特征分析與識別的研究［M］.電子與信息學(xué)報，2011，33（1）：312-317.HUANG Chengwei，ZHAO Yan，et al.Research on feature analysis and recognition of practical speech emotion［M］.Journal of electronics and information，2011，33（1）：312-317.

［9］林奕琳，韋崗，楊康才.語音情感識別的研究進(jìn)展［J］.電路與系統(tǒng)學(xué)報，2007，12（1）：90-98.LIU Yilin，WEI Gang，YANG Kangcai.Research Progress of Speech Emotion Recognition［J］.Journal of Cirouits and Systems，2007，12（1）：90-98.

［10］郭鵬娟，蔣冬梅.基于基頻特征的情感語音識別研究［M］.計算機(jī)應(yīng)用研究，2007，24（10）：2056-2058.LIN Yilin，WEI Gang，YANG Kangcai.Advances in speech emotion recognition［M］.Journal of circuits and systems，2007，12（1）：569-574.

［11］姜曉慶，田嵐，崔國輝.多語種情感語音的韻律特征分析和情感識別研究［J］.聲學(xué)學(xué)報，2006，3（13）：569-574.JIANG Xiaoqing，TIAN LAN，CUI Guohui.Prosodic feature analysis and emotion recognition of multilingual emotional speech［J］.Journal of acoustics，2006，3（13）：569-574.

［12］趙力，錢向民等.語音信號中的情感識別研究［J］.軟件學(xué)報，2001，12（7）：1036-1038.ZHAO Li，QIAN Xiangming，et al.Research on emotion recognition of speech signal［J］.Journal of software，2001，12（7）：1036-1038.

［13］余伶俐，周開軍，邱愛兵.基于Elman神經(jīng)網(wǎng)絡(luò)的語音情感識別應(yīng)用研究［J］.計算機(jī)應(yīng)用研究，2012，29（5）：56-58.YU Lingli，ZHOU Kaijun，QIU Hong.Application Research of speech emotion recognition based on Elman neural network［J］.Computer application research，2012，29（5）：56-58.

［14］韓文靜.基于神經(jīng)網(wǎng)絡(luò)的語音情感識別技術(shù)研究［D］.哈爾濱工業(yè)大學(xué)，2007：339-345.HAN Wenjing.Research on speech emotion recognition technology based on neural network［D］.Harbin Institute of Technology，2007：339-345.

［15］時小虎.Elman神經(jīng)網(wǎng)絡(luò)與進(jìn)化算法的若干理論研究及應(yīng)用［D］.長春：吉林大學(xué)，2006：789-794.SHI Xiaohu.Theoretical research and application of Elman neural network and evolutionary algorithm［D］.Changchun：Jilin University，2006：789-794.

［16］趙志剛，常成.帶變異算子的自適應(yīng)粒子群優(yōu)化算法［J］.計算機(jī)工程與應(yīng)用，2011，47（17）：42-44.ZHAO Zhigang，CHENG Chang.Adaptive particle swarm optimization with mutation operator［J］.Computer engineering and applications，2011，47（17）：42-44.

Study of Speech Emotion Recognition Based on Improved Elman Neural Network

WANG Ying
（College of Computer and Information Technology，Northeast Petrolem University，Daqing 163000）

Speech emotion features can be divided into the global statistical feature and instantaneous characteristics on the time granularity.According to the dynamic characteristics of speech emotion，this paper presents a realization of speech emotion recognition improved Elman neural network model.The improved Elman network receive global feature signal and the time sequence signal as input，and modify the network structure automatically according to the input signal characteristics.This new Elman network fuses the global feature of signal and the time sequence signal successfully，and enhances the discrimination of the whole system.

speech emotion features，improved Elman neural network，global feature signal，time sequence signal

TP389.1

10.3969/j.issn.1672-9722.2017.11.011

Class Number TP389.1

2017年5月6日，

2017年6月24日

王穎，女，碩士研究生，講師，研究方向：人工智能、情感計算。

猜你喜歡

段長度識別率時序

時序坐標(biāo)

《學(xué)習(xí)方法報》歷史中考版(2024年8期)2024-12-31 00:00:00

基于Sentinel-2時序NDVI的麥冬識別研究

中國農(nóng)業(yè)信息(2021年3期)2021-11-22 06:44:48

基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測

計算機(jī)工程(2020年3期)2020-03-19 12:24:50

基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系

中國聽力語言康復(fù)科學(xué)雜志(2019年3期)2019-06-24 09:51:20

提升高速公路MTC二次抓拍車牌識別率方案研究

中國交通信息化(2018年3期)2018-06-13 03:27:58

過渡段長度對混合梁橋的受力影響

吉林建筑大學(xué)學(xué)報(2018年1期)2018-03-05 02:21:37

一種毫米波放大器時序直流電源的設(shè)計

電子制作(2016年15期)2017-01-15 13:39:08

高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用

中國交通信息化(2016年2期)2016-06-06 07:28:02

高強(qiáng)鋼組合K型偏心支撐框架耗能梁段長度研究

西安建筑科技大學(xué)學(xué)報(自然科學(xué)版)(2014年2期)2014-11-12 13:04:38

DPBUS時序及其設(shè)定方法

河南科技(2014年15期)2014-02-27 14:12:36

計算機(jī)與數(shù)字工程2017年11期

計算機(jī)與數(shù)字工程的其它文章: 步長為1和4的循環(huán)圖的k-偶匹配可擴(kuò)性?; 高職院校新建數(shù)據(jù)中心超融合技術(shù)的應(yīng)用?; 基于前綴路徑圖的頻繁閉項集挖掘算法?; 一種面向海洋監(jiān)控視頻的索引機(jī)制?; 眾包之基于位置的查詢?; 極低頻電磁場擾動下神經(jīng)元的電活動特性?

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

av影院手机在线观看| 91产精品无码无套在线| 久久国产av在线观看| 中文字日产幕码三区做法| 很黄很色很污18禁免费| 97se亚洲精品一区| 国产亚洲午夜精品| 久久精品国产亚洲av日韩精品| 久久精品国产亚洲av麻豆会员 | 蜜桃精品视频一二三区| 免费无码一区二区三区a片百度| 色狠狠一区二区三区香蕉| 亚洲欧洲日韩另类自拍| 人妻少妇偷人精品视频| 国产区精品一区二区不卡中文| 69久久夜色精品国产69| 99亚洲乱人伦精品| 国产三级av大全在线爽| 国产精品久久久久精品一区二区| 中国精学生妹品射精久久| 熟女少妇av免费观看| 经典三级免费看片天堂| 精品999日本久久久影院| 成人a在线观看| 亚洲视一区二区三区四区| 粗大猛烈进出高潮视频大全| 亚洲国产美女精品久久久| 9久9久女女热精品视频免费观看| 久久国产精品亚洲我射av大全| 国产一区二区三区四区三区| 九九99无码精品视频在线观看| 无码久久精品蜜桃| 精品国产自在现线看久久| 毛片a级毛片免费观看| 99国产精品久久久蜜芽| 丰满人妻被公侵犯的视频| 亚洲av无码一区东京热| 国产亚洲美女精品久久久| 中文字幕亚洲乱亚洲乱妇| 蜜桃一区二区三区视频网址| 久热这里只有精品视频6|