亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AA-LSTM網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別研究

        2021-11-17 04:01:06張會(huì)云黃鶴鳴黃志東
        計(jì)算機(jī)仿真 2021年3期
        關(guān)鍵詞:優(yōu)化情感模型

        張會(huì)云,黃鶴鳴*,李 偉,黃志東

        (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        1 引言

        語(yǔ)音包含豐富的語(yǔ)言、副語(yǔ)言和非語(yǔ)言信息[1],這些信息對(duì)人機(jī)交互具有非常重要的意義。僅理解語(yǔ)言信息并不足以使計(jì)算機(jī)能夠完全理解說(shuō)話者的意圖。為了使計(jì)算機(jī)類同人類,語(yǔ)音識(shí)別系統(tǒng)需要能夠處理非語(yǔ)言信息,尤其是說(shuō)話者的情感狀態(tài)[2]。因此,語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)受到越來(lái)越多研究者的廣泛關(guān)注[3-4]。

        情感語(yǔ)音包括語(yǔ)義內(nèi)容和情感特征,大量SER研究主要集中于尋找最能表示情感的不同語(yǔ)音特征[1]。文獻(xiàn)[5-6]提出了關(guān)于情感的各種短期特征和長(zhǎng)期特征,但仍不清楚哪些特征更能提供情感方面的信息。傳統(tǒng)方法是提取大量統(tǒng)計(jì)特征,并使用機(jī)器學(xué)習(xí)算法分類。很明顯,特征提取包括兩個(gè)階段。首先,從短幀中提取情感聲學(xué)特征,即低級(jí)描述符;其次,每個(gè)低級(jí)描述符用不同統(tǒng)計(jì)聚合函數(shù)表示成特征向量,表達(dá)了句子級(jí)不同低級(jí)描述符的時(shí)間變化和輪廓[5]。常用的低級(jí)描述符和高級(jí)統(tǒng)計(jì)函數(shù)如表1所示[6]。

        表1 常用的低級(jí)描述符與高級(jí)統(tǒng)計(jì)函數(shù)

        2 相關(guān)工作

        人類通過(guò)潛意識(shí)識(shí)別情感,為了實(shí)現(xiàn)更好的人機(jī)交互,需要考慮語(yǔ)音中的情感。由于人類情感界限模糊,因此,識(shí)別情感具有很大的挑戰(zhàn)性。首先,很難確定語(yǔ)音片段的開(kāi)始和結(jié)束;其次,每個(gè)語(yǔ)音片段通常表示不同情感[5-7]。

        最近深度學(xué)習(xí)自動(dòng)學(xué)習(xí)SER中的情感特征受到很多研究者的關(guān)注[8-10]。對(duì)情感的識(shí)別需要考慮上下文信息,而LSTM網(wǎng)絡(luò)恰好用于序列輸入動(dòng)態(tài)建模,且能夠解決網(wǎng)絡(luò)訓(xùn)練中的梯度消失或爆炸問(wèn)題。這是由于LSTM的輸入通常來(lái)自底層和先前時(shí)刻時(shí)間步長(zhǎng)的輸出,且LSTM中的記憶單元和門(mén)能夠控制信息記憶、輸出或遺忘[2,10]。

        SER受益于神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[8,9,11]表明神經(jīng)網(wǎng)絡(luò)更高層可獲取更多時(shí)間步長(zhǎng)時(shí),其網(wǎng)絡(luò)性能將大幅提升,但這僅針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò),并未討論時(shí)間序列問(wèn)題。文獻(xiàn)[12-14]表明語(yǔ)音時(shí)間信息有利于情感識(shí)別。因此,很多研究者提出了將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用于SER研究,文獻(xiàn)[13]使用RNN在幀級(jí)學(xué)習(xí)短期聲學(xué)特征,并將傳統(tǒng)表示映射到句子級(jí)表示。由于Attention機(jī)制能夠選擇情感集中區(qū)域[14-15],文獻(xiàn)[5]提出了將其應(yīng)用于LSTM網(wǎng)絡(luò)來(lái)提取聲學(xué)特征。在此基礎(chǔ)上,文獻(xiàn)[6]引入先進(jìn)的LSTM(Advanced LSTM,A-LSTM)網(wǎng)絡(luò)來(lái)提取聲學(xué)特征,能更好地實(shí)現(xiàn)上下文建模,實(shí)驗(yàn)表明,基于Attention機(jī)制的A-LSTM(Attention Advanced LSTM,AA-LSTM)網(wǎng)絡(luò)對(duì)情感的識(shí)別性能更優(yōu)。

        為了提取語(yǔ)音中的潛在情感,研究了AA-LSTM網(wǎng)絡(luò)在不同參數(shù)集對(duì)情感識(shí)別系統(tǒng)性能的影響。

        3 語(yǔ)料庫(kù)描述與特征提取

        為了評(píng)估基于AA-LSTM網(wǎng)絡(luò)的SER系統(tǒng)性能,本研究在EMO-DB語(yǔ)料庫(kù)上進(jìn)行了大量實(shí)驗(yàn)。EMO-DB語(yǔ)料庫(kù)由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制,采樣率16kHz,16bit量化,共535句語(yǔ)料,由10位演員(5男5女)對(duì)10個(gè)語(yǔ)句(5長(zhǎng)5短)模擬生氣W、無(wú)聊L、厭惡E、害怕A、高興F、悲傷T及中性/N等7種情感。

        所提取的聲學(xué)特征包括13維MFCC、過(guò)零率、譜重心、諧波噪聲比及音高等,并對(duì)提取的特征進(jìn)行歸一化處理[16-17]。

        4 語(yǔ)音情感識(shí)別系統(tǒng)

        4. 1 基于Attention機(jī)制的LSTM

        基于Attention機(jī)制的LSTM網(wǎng)絡(luò)依賴Attention機(jī)制學(xué)習(xí)每個(gè)步長(zhǎng)的權(quán)重并將其表示為加權(quán)組合,多任務(wù)學(xué)習(xí)可更好地學(xué)習(xí)句子級(jí)特征[5]。其結(jié)構(gòu)如圖1所示。

        圖1 基于Attention機(jī)制的加權(quán)池化LSTM

        該結(jié)構(gòu)分為主干和分支,分支包含情感、說(shuō)話者和性別分類[5],主干共享所有任務(wù),并處理分類的輸入和特征表示,其頂部是加權(quán)池層[2],[18],計(jì)算如(1)式所示

        (1)

        (2)

        其中,hT是T時(shí)LSTM的輸出,AT是T時(shí)相應(yīng)權(quán)重的標(biāo)量,計(jì)算過(guò)程如(2)式,W是學(xué)習(xí)參數(shù),exp(W·hT)是T時(shí)的能量。若T時(shí)幀能量很高,其權(quán)重就增大,關(guān)注更高;反之,則關(guān)注較低,即模型可分配權(quán)重[19]。

        本研究主干是具有256個(gè)ReLU節(jié)點(diǎn)的全連接層和128個(gè)節(jié)點(diǎn)的雙向LSTM層,隨后進(jìn)入加權(quán)池層。在分支部分,每個(gè)任務(wù)均有隱含層,即包含256個(gè)ReLU神經(jīng)元和Softmax層。

        4. 2 A-LSTM

        傳統(tǒng)LSTM的輸入來(lái)自底層和前一刻時(shí)間步長(zhǎng)的輸出并將其反饋到更高層。門(mén)機(jī)制通過(guò)點(diǎn)乘法控制信息流動(dòng)[6],記憶單元更新信息如(3)式。其中,ft和it是t時(shí)遺忘門(mén)和輸入門(mén)的輸出;Ct是新的候選單元值,計(jì)算如(4)式。其中,tanh是激活函數(shù),WC是學(xué)習(xí)的權(quán)重集合,bC是偏置;[ht-1,xt]是先前時(shí)間步長(zhǎng)(h值)和底層(x值)的串聯(lián),t時(shí)h值計(jì)算如(5)式。其中,Ot是輸出門(mén),基于ht-1和Ct-1計(jì)算Ct。

        (3)

        (4)

        ht=ot⊙tanh(Ct)

        (5)

        與傳統(tǒng)LSTM不同,A-LSTM釋放了時(shí)間t狀態(tài)依賴于t-1狀態(tài)的假設(shè),并使用多個(gè)狀態(tài)的加權(quán)和計(jì)算C值和H值,如圖2所示。將LSTM中的(3-4)式修改為(6-7)式,C是選定狀態(tài)的加權(quán)和,T是選定時(shí)間步長(zhǎng)的集合,(9)式中的是標(biāo)量,表示時(shí)間步長(zhǎng)對(duì)應(yīng)的權(quán)重;(10)式用于計(jì)算t時(shí)刻隱含值,與(5)式相同,但此時(shí)單元值是C′,h′通過(guò)(11-12)式進(jìn)行計(jì)算,在(9)(12)式中,W是學(xué)習(xí)到的共享參數(shù),C′和h′包含集合T中的所有狀態(tài)和隱含值。

        圖2 A-LSTM的展開(kāi)圖

        (6)

        (7)

        (8)

        (9)

        (10)

        (11)

        (12)

        A-LSTM具有更靈活的時(shí)間依賴建模能力,類同人類學(xué)習(xí)機(jī)制,能夠回憶起先前時(shí)刻信息,使學(xué)習(xí)變得更好。

        4.3 AA-LSTM

        將Attention機(jī)制與A-LSTM網(wǎng)絡(luò)相結(jié)合得到AA-LSTM網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。與圖1不同之處在于該網(wǎng)絡(luò)將圖1中的LSTM網(wǎng)絡(luò)改為圖2中的A-LSTM網(wǎng)絡(luò)結(jié)構(gòu),其計(jì)算過(guò)程如式(6~12)。

        5 實(shí)驗(yàn)與結(jié)果

        本研究在EMO-DB德語(yǔ)情感語(yǔ)料庫(kù)上研究了AA-LSTM網(wǎng)絡(luò)中的最優(yōu)參數(shù)設(shè)置和優(yōu)化器選擇。首先,比較了不同批處理(Batchsize)、迭代周期(Epoch)、交叉驗(yàn)證次數(shù)(K_folds)以及訓(xùn)練終止條件(Patience)對(duì)AA-LSTM網(wǎng)絡(luò)系統(tǒng)性能的影響;其次,選擇不同的優(yōu)化器對(duì)系統(tǒng)進(jìn)行優(yōu)化,其評(píng)價(jià)指標(biāo)采用準(zhǔn)確率、均值和方差。

        圖3 基于Attention機(jī)制的A-LSTM網(wǎng)絡(luò)

        表2給出了該模型在不同Batch size下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Batchsize下模型所獲得的性能,在該系統(tǒng)中,使K_folds=5,Epoch=100,Patience=10,Optimiser=′Adam′。

        由表2可知,在其它參數(shù)確定的情況下,不同Batch Size對(duì)系統(tǒng)性能影響有所差異。當(dāng)Batch Size=16時(shí),系統(tǒng)最佳性能達(dá)到66.39%,但均值為61.78%且偏離程度較大;Batch Size=64雖偏離程度較小,但耗時(shí)相當(dāng)大。綜合來(lái)看,當(dāng)Batch Size=32時(shí)不僅系統(tǒng)平均性能較穩(wěn)定,耗時(shí)也非常小,主要是由于選取的批量大小合適,提高了訓(xùn)練速度;同時(shí),選取合適Batch Size使梯度下降方向更加準(zhǔn)確,從而提升了網(wǎng)絡(luò)整體性能。

        表2 不同Batch Size下的混淆矩陣與性能

        表3給出了該模型在不同優(yōu)化器(Adam,Rmsprop,Sgd)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同優(yōu)化器下模型所獲得的性能,在該系統(tǒng)中,使K_folds=5,Patience=10,Epoch=100,Batch size=32。

        由表3可知,在其它參數(shù)確定的情況下,不同優(yōu)化器對(duì)系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差,與Adam,Sgd等優(yōu)化器相比,選擇Rmsprop優(yōu)化器優(yōu)化模型時(shí),系統(tǒng)最佳性能可達(dá)到67.29%,平均性能為62.26%且偏離程度較小,表明Rmsprop是該系統(tǒng)中的最佳優(yōu)化器,Adam次之,Sgd優(yōu)化器不適用于該模型結(jié)構(gòu)。

        表3 不同優(yōu)化器下的混淆矩陣與性能

        表4給出了該模型在不同訓(xùn)練終止條件(Patience)下所獲得的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Patience下模型所獲得的性能,在該系統(tǒng)中,Batchsize=32,Optimiser=′Rmsprop′,K_folds=5,Epoch=100。

        由表4可知,在其它參數(shù)確定的情況下,不同Patience對(duì)系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差等因素,當(dāng)Patience=10時(shí),系統(tǒng)性能達(dá)到最優(yōu)、整體性能穩(wěn)定、偏離程度較小且耗時(shí)較小。隨著Patience值不斷增大,系統(tǒng)性能有所下降,這是由于過(guò)擬合現(xiàn)象造成的。

        表5給出了該模型在不同交叉驗(yàn)證次數(shù)(K_folds)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同K_folds下模型所獲得的性能,在該系統(tǒng)中,使Batchsize=32,Optimiser=′Rmsprop′,Patience=10,Epoch=100。

        由表5可知,在其它參數(shù)確定的情況下,不同K_folds對(duì)系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差等因素,隨著K_folds逐漸增大,模型最佳性能可達(dá)到70.09%,且整體性能有所提升,這是一個(gè)非??捎^的結(jié)果,但系統(tǒng)偏離程度較大且非常耗時(shí)。

        表4 不同Patience下的混淆矩陣與性能

        表5 不同K-folds下的混淆矩陣與性能

        表6、表7給出了該模型在不同迭代周期(Epoch)下得到的混淆矩陣、最優(yōu)性能及均值和方差。為了研究不同Epoch下模型的性能,在該系統(tǒng)中,使Batchsize=32,Optimiser=′Rmsprop′,Patience=10,K_folds=5。

        由表6、表7可知,在其它參數(shù)確定的情況下,不同Epoch對(duì)系統(tǒng)性能影響有所差異。綜合考慮準(zhǔn)確率、均值及方差,當(dāng)Epoch增大到100時(shí),模型最佳性能可達(dá)到67.29%,且整體性能有所提升,但偏離程度較大;當(dāng)Epoch繼續(xù)增大到200時(shí),模型的性能有所下降且非常耗時(shí)。同時(shí),縱觀表6,表7可得出:針對(duì)同一Epoch,K_folds越大,系統(tǒng)性能越好。進(jìn)一步證明了K_folds對(duì)系統(tǒng)性能的作用。

        表6 K_folds=5在不同Epoch下的混淆矩陣與性能

        表7 K_folds=10在不同Epoch下的混淆矩陣與性能

        6 結(jié)論與展望

        本研究采用AA-LSTM網(wǎng)絡(luò)對(duì)SER系統(tǒng)中的參數(shù)進(jìn)行了驗(yàn)證,該實(shí)驗(yàn)中涉及到的網(wǎng)絡(luò)參數(shù)有:模型交叉驗(yàn)證次數(shù)(K_folds)、模型在訓(xùn)練集上運(yùn)行的周期(Epoch)、每次訓(xùn)練模型時(shí)選取的批量大小(Batch size)、檢測(cè)模型終止的條件(Patience)以及模型優(yōu)化器(Adam,Rmsprop,Sgd)等。實(shí)驗(yàn)結(jié)果表明:網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)對(duì)情感識(shí)別系統(tǒng)性能影響較大,即選取適當(dāng)參數(shù)集不僅能夠提高網(wǎng)絡(luò)模型的性能,還能大大減少模型的訓(xùn)練時(shí)間;同時(shí),優(yōu)化器的選擇對(duì)系統(tǒng)性能影響也較大。本研究通過(guò)大量實(shí)驗(yàn)以選擇AA-LSTM網(wǎng)絡(luò)性能達(dá)到最優(yōu)時(shí)的參數(shù)設(shè)置,今后將利用對(duì)抗網(wǎng)絡(luò)生成足夠數(shù)量SER數(shù)據(jù),并在最優(yōu)參數(shù)設(shè)置下將跳躍連接引入該網(wǎng)絡(luò)以研究其性能,或?qū)⒔Y(jié)合多時(shí)間步長(zhǎng)狀態(tài)的思想擴(kuò)展到門(mén)控循環(huán)單元(GRU)。

        猜你喜歡
        優(yōu)化情感模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        亚洲永久免费中文字幕| 午夜短视频日韩免费| 极品av在线播放| 日本一区二区三区丰满熟女| 男人添女人囗交做爰视频| 国产成人免费一区二区三区| 亚洲AV无码一区二区二三区我| 狼人狠狠干首页综合网| 日本不卡在线视频二区三区| 午夜视频在线在免费| 亚洲国产美女精品久久| 亚洲一区二区精品在线看| 国产一区二区三区亚洲avv| 午夜福利av无码一区二区| 日韩国产欧美视频| 男女干逼视频免费网站| 国产人妖网站在线视频| 无码人妻久久一区二区三区免费| 国产91网址| 丁香婷婷激情俺也去俺来也| 大奶白浆视频在线观看| 天天鲁一鲁摸一摸爽一爽| 不卡国产视频| 日本女同视频一区二区三区| 国产情侣真实露脸在线| 亚洲免费观看在线视频| 精品国产自拍在线视频| 水蜜桃精品视频在线观看| 性欧美videofree高清精品| 亚洲国产精品久久久天堂不卡海量 | Y111111国产精品久久久| 日本高清人妻一区二区| 日韩人妻中文无码一区二区| 99久久99久久精品国产片果冻| 午夜爽毛片| 亚洲天堂av福利在线| 国产精成人品日日拍夜夜免费| 日本韩国一区二区三区| 亚洲无人区一码二码国产内射| 国产精品无码dvd在线观看| 亚洲成在人线av|