亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機制的深度循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別

        2022-06-02 14:41:46蒯紅權(quán)吳建華
        電子器件 2022年1期
        關(guān)鍵詞:深度機制情感

        蒯紅權(quán) ,吳建華 ,吳 亮

        (1.鹽城市經(jīng)貿(mào)高級職業(yè)學(xué)校實訓(xùn)處,江蘇 鹽城 224041;2.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)

        情感識別是人工智能未來的研究方向之一。在許多業(yè)務(wù)場景中,利用人工智能準(zhǔn)確地提取并利用對象的情感信息對于業(yè)務(wù)質(zhì)量的提高有著重大意義。語言作為人類交流最原始,最重要的方式之一,不僅攜帶有語義信息,還攜帶著大量情感信息[1]。因此,語音情感識別問題正受到越來越廣泛的關(guān)注。

        近年來,伴隨著硬件性能的提升帶來的計算機計算資源的爆炸性增加,深度學(xué)習(xí)在許多機器學(xué)習(xí)任務(wù)上取得了巨大的成功,成為了機器學(xué)習(xí)最受關(guān)注的分支。在其他領(lǐng)域取得成功之后,深度學(xué)習(xí)也被應(yīng)用到了語音情感識別任務(wù)中,并取得了比傳統(tǒng)機器學(xué)習(xí)方法更好的效果。

        傳統(tǒng)的語音情感識別算法分為特征提取與特征分類兩個步驟。首先需要對語音信號分幀,逐幀提取短時聲學(xué)特征,例如梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)等,再從這些短時特征中提取長時特征,最后將長時特征輸入分類器[2]。雖然深度學(xué)習(xí)技術(shù)的出現(xiàn)使以原始信號(或其FFT 譜)作為輸入進行end-to-end(端到端)的語音情感識別得以實現(xiàn)[3],但實驗結(jié)果表明,由于目前語音情感識別領(lǐng)域缺少大規(guī)模數(shù)據(jù)作為訓(xùn)練樣本,以手動提取的傳統(tǒng)聲學(xué)特征作為模型的輸入仍然比以原始數(shù)據(jù)作為輸入更容易取得更好的性能[2],所以傳統(tǒng)聲學(xué)特征仍然被廣泛應(yīng)用于語音識別問題。

        因為語音信號是一種典型的時序信號,所以專門用于處理序列數(shù)據(jù)的RNN(Ruccurent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是語音情感識別任務(wù)中最常用的一類深度學(xué)習(xí)模型。此外,CNN(Convolutional Neural Network)的應(yīng)用也較為常見。自RNN 誕生以來,產(chǎn)生了許多變體,其中最具代表性,也最為常用的模型是LSTM(Long Short Term Memory)[4]。目前大部分序列模型中采用的都是LSTM 或其變體GRU(Gated Recurrent Unit,門控循環(huán)單元),而非傳統(tǒng)RNN,在語音情感識別任務(wù)中也是如此。此外,相比于單向LSTM,雙向LSTM 在語音情感識別任務(wù)中的應(yīng)用要廣泛得多。

        近年來,注意力模型在機器翻譯等NLP(Natrual Language Processing,自然語言處理)領(lǐng)域取得了巨大成功。之后,這一技術(shù)被遷移到了語音情感識別任務(wù)中。研究者將注意力機制加入了傳統(tǒng)的CNN[5-6]和RNN[2,7],證明了注意力機制能夠有效提高語音情感識別算法的性能。其中,文獻[2]將注意力模型應(yīng)用于雙向LSTM 層的輸出,在時間維度對LSTM 的輸出序列進行了加權(quán)平均,得到一個特征向量,再從該向量得到最終的分類結(jié)果,該模型在IEMOCAP 數(shù)據(jù)集上取得了比傳統(tǒng)方法高1%~2%的識別性能。

        對于一些復(fù)雜問題,由于單層RNN 難以取得足夠高的性能,往往需要使用深度RNN。由于上述注意力模型的輸出并非一個序列,因此其只能應(yīng)用于最后一層RNN 的輸出,而不能應(yīng)用于多個RNN 層之間,無法與深度RNN 緊密結(jié)合。所以本文基于傳統(tǒng)的注意力機制,提出了分段注意力機制,并將其應(yīng)用于深度RNN 網(wǎng)絡(luò)中,提出了一個基于分段注意力的新型深度RNN 模型。該模型兩個LSTM 層之間加入了一個改進的注意力機制,在時間維度上將前一級LSTM 層的輸出序列分割為若干區(qū)間,在每個區(qū)間內(nèi)進行一個基于注意力機制的加權(quán)池化,以將該序列映射為一個較短的序列,作為下一級LSTM 層的輸入。我們使用36 個短時特征作為輸入,在CASIA 數(shù)據(jù)集上對該模型進行了實驗,并將其與基于普通注意力機制的單層LSTM 與雙層LSTM 的性能進行了對比,實驗結(jié)果表明,該模型在CASIA 數(shù)據(jù)集上取得的識別性能比普通的雙層LSTM 模型高出了1%~2%,比普通的單層LSTM 高出了約5%。并且訓(xùn)練速度比普通雙層LSTM 模型高出約50%,略高于普通單層LSTM。

        1 基于分段注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型

        RNN 是一類以序列數(shù)據(jù)作為輸入的神經(jīng)網(wǎng)絡(luò),特別適用于語音,文本等時序信息的分析。對RNN的研究始于20 世紀(jì)80—90 年代,并逐步發(fā)展為深度學(xué)習(xí)的主要模型之一。其中,目前最常見的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是LSTM,是為了解決傳統(tǒng)RNN 存在的長期依賴問題而產(chǎn)生的。由于其獨特的結(jié)構(gòu),LSTM 擅長分析時間序列中間隔和延遲非常長的重要事件。

        大多數(shù)情況下而言,序列的不同部分并非同等重要。為了更加高效地提取出有用信息,算法應(yīng)該更著重于分析序列中更加重要的部分。然而,對于一般的RNN,輸入序列中各個元素具有相同權(quán)重,其不具備重點關(guān)注序列中特定部分的能力。而且,除了RNN之外,CNN 等其他模型也同樣具有這一不足,因此,近年來有關(guān)學(xué)者提出了注意力機制,用于幫助模型關(guān)注數(shù)據(jù)中更加重要的部分。

        受到圖像處理領(lǐng)域SIFT 算法中高斯金字塔的啟發(fā),本文提出了一種基于分段注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其結(jié)構(gòu)如圖1 所示。

        圖1 基于分段注意力機制的深度RNN 模型

        模型的輸入為二維張量,兩個維度分別為特征和時間。假設(shè)輸入樣本被分為T個時間片,對每一個時間片提取D維特征,則輸入張量大小為D×T,各個時間片的特征向量依次存放在張量的每一列。首先,輸入張量依次通過全連接層和雙向LSTM 層,得到一個新的二維張量。然后,該張量從時間維度被切割為多個片段,每個片段分別通過一個注意力層,映射為一個特征向量,每個時間片的輸出經(jīng)過組合后又得到新的二維張量。這個操作相當(dāng)于進行了一次池化,假設(shè)每個時間片的長度為L,則池化大小為1×L,輸出張量大小為D×(T/L)。最后,池化結(jié)果依次通過雙向LSTM 層,注意力層和Softmax 層,映射為概率向量。

        該模型結(jié)構(gòu)能夠?qū)r序信息進行層次化的分析,第一級LSTM 和注意力層用于對局部的特征進行提取,第二級LSTM 和注意力層用于全局特征的提取。

        1.1 注意力機制

        圖2 為本文采用的注意力機制的原理示意圖。對于每一幀,我們計算LSTM 的輸出yt與向量u的內(nèi)積,記為pt:

        圖2 注意力機制的一種實現(xiàn)

        式中:u是一個可訓(xùn)練的向量。接下來,我們計算pt的Softmax 函數(shù):

        αt可理解為該幀輸出相對于最終輸出的權(quán)重。利用權(quán)重向量α對LSTM 的輸出進行加權(quán)求和,得到最終的輸出向量:

        將該向量作為分類器的輸入即可得到分類概率。

        1.2 分段注意力機制

        首先,和1.1 節(jié)類似,利用公式(1),計算LSTM每一幀的輸出yt與向量u的內(nèi)積pt。接下來,我們首先將LSTM 的輸出分割為若干區(qū)間。假設(shè)共有N個區(qū)間,每個區(qū)間長度為L,設(shè)第n個區(qū)間為[nL,(n+1)L-1],在該區(qū)間內(nèi),我們計算pt的Softmax 函數(shù),作為各幀的權(quán)重:

        在該區(qū)間內(nèi)利用該權(quán)重對LSTM 的輸出進行加權(quán)求和,得到輸出向量:

        因為共有n個區(qū)間,所以分段注意力層將輸出一個長度為n的序列z。當(dāng)n=1 時,即退化為1.1節(jié)所述的普通注意力模型。

        在我們的模型中,我們將第一層LSTM 的輸出,輸入分段注意力層,將分段注意力層的輸出作為第二層LSTM 的輸入,再將第二層LSTM 的輸出,輸入1.1 節(jié)所述的普通注意力層,將其輸出,輸入Softmax分類器,得到分類概率。

        2 實驗

        為檢驗?zāi)P托阅?,我們在CASIA 情感數(shù)據(jù)集上進行了實驗。該數(shù)據(jù)集為中科院自動化研究所建立的數(shù)據(jù)集,包括高興,生氣,悲傷,驚訝,恐懼和平靜6 種情緒,每類1 200 個樣本,共7 200 個樣本。

        首先,我們以25 ms 為幀長,10 ms 為幀移對語音進行分幀,對較短樣本補0,對較長樣本截去尾部,以將所有樣本的長度統(tǒng)一為1 024 幀。接下來,我們在分幀后的語音信號中對每一幀提取36 維短時特征(包括ZCR,energy,energy entropy,spectral centroid,spectral spread,spectral entropy,spectral flux,spectral roll-off,13 階MFCC,12 階chroma,chroma 的標(biāo)準(zhǔn)差,harmonic ratio 和pitch),作為模型的輸入。

        本文采用文獻[2]提出的基于注意力機制的RNN 模型作為基線。在該模型中,每幀的數(shù)據(jù)首先通過全連接層,再通過RNN 層,最后利用注意力模型對RNN 層的輸出進行加權(quán)池化[2],將池化結(jié)果通過Softmax 層,得到分類概率。在本文的實驗中,我們采用了2 層全連層,每層512 個神經(jīng)元,激活函數(shù)為ReLU 函數(shù);RNN 層采用的是64 個神經(jīng)元的雙向LSTM,為了證明深度RNN 能夠取得比普通RNN 更好的性能,我們對于使用一層LSTM 和兩層LSTM的情況分別進行了實驗;注意力模型采用1.1 節(jié)所述模型。訓(xùn)練時對每層均采用0.5 的dropout 率。

        本文提出的模型即在上述基線模型基礎(chǔ)上在兩個LSTM 層之間加入了一個1.2 節(jié)所述的分段注意力模型,以16 幀為單位對第一層LSTM 的輸出進行分段注意力池化。模型的其余參數(shù)與上述基線模型相同。

        我們對每個模型都進行了多次實驗,表1 列出了各模型取得的最高準(zhǔn)確率(weighted accuracy,WA),最低準(zhǔn)確率,以及平均準(zhǔn)確率。因為該數(shù)據(jù)集各類別樣本數(shù)是平衡的,所以UA(unweighted accuracy)和WA 是相同的。

        表1 各模型的準(zhǔn)確率

        表1 中的結(jié)果表明,采用雙層LSTM 的模型性能比采用單層LSTM 的模型更好。這說明深度RNN的確能夠取得比單層RNN 更好的性能。在兩層LSTM 之間加入了分段注意力機制后,模型識別率提高了約1.5%。

        同時,我們也比較了三個模型的訓(xùn)練速度。實驗采用的深度學(xué)習(xí)框架為Tensorflow 1.13.1,利用Nvidia RTX2070 GPU 進行加速。訓(xùn)練時采用的batch 大小為128,采用Adam 優(yōu)化算法進行訓(xùn)練,初始學(xué)習(xí)率為0.001,在驗證集損失函數(shù)連續(xù)10 步?jīng)]有下降時將學(xué)習(xí)率降低0.5 倍。在驗證集識別率連續(xù)20 步?jīng)]有提高時終止訓(xùn)練。表2 列出了各模型的訓(xùn)練時間,表3列出了各模型訓(xùn)練過程中識別率的變化。從結(jié)果可以看出,在兩個LSTM 層之間加入分段注意力機制之后,雖然模型參數(shù)變多了,但模型收斂速度卻提高了約100%,甚至相比單層LSTM 也要略高。原因是分段注意力機制縮短了第二層LSTM 輸入序列的長度,而RNN 訓(xùn)練速度主要取決于輸入序列的長度。

        表2 各模型收斂時間

        表3 各模型訓(xùn)練過程中識別率的變化

        3 總結(jié)

        為了將注意力模型與深度RNN 緊密結(jié)合,本文對傳統(tǒng)的注意力機制進行了推廣,提出了分段注意力機制,并提出了基于該機制的深度RNN 模型。該模型中,上一級RNN 層的輸出序列首先被分段,對于每一段都進行注意力加權(quán)池化,以此將前級RNN輸出的較長序列映射為較短的序列作為后級RNN的輸入。本文在CASIA 情感數(shù)據(jù)集上進行了實驗,實驗結(jié)果證明,深度RNN 能夠取得比單層RNN 更好的性能;在引入分段注意力機制后,模型性能獲得了進一步提升,且模型的訓(xùn)練速度獲得了大幅提高。

        猜你喜歡
        深度機制情感
        如何在情感中自我成長,保持獨立
        深度理解一元一次方程
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        深度觀察
        深度觀察
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        如何在情感中自我成長,保持獨立
        深度觀察
        破除舊機制要分步推進
        999国产精品亚洲77777| 久久免费看黄a级毛片| 国产成人精品一区二区三区| 风间由美性色一区二区三区| 久久精品国产亚洲AV成人公司| 成人影院免费视频观看| 麻豆视频在线播放观看| 国产av无码专区亚洲av毛网站| 国产精品成人va| 久久综合给合久久97色| 99国产精品久久一区二区三区 | 国产精品视频yuojizz| 视频一区中文字幕亚洲| 手机在线免费av资源网| 无码国模国产在线观看| 久草国产视频| 亚洲一级天堂作爱av| 加勒比色老久久爱综合网| 亚洲日韩中文字幕一区| 巨乳av夹蜜桃站台蜜桃机成人| 成人国产av精品麻豆网址| 久久久亚洲欧洲日产国码aⅴ | 久久国产成人精品国产成人亚洲 | 开心五月激情五月天天五月五月天| (无码视频)在线观看| 乱人伦中文字幕成人网站在线| 狠狠色欧美亚洲综合色黑a| 免费在线国产不卡视频| 色婷婷五月综合久久| 国产v视频| 精品在线视频免费在线观看视频 | 亚洲精品久久激情国产片| 久久久久亚洲av无码专区网站| 狠狠躁夜夜躁人人爽天天不卡| 亚洲av熟女中文字幕| 日本最大色倩网站www| 精品无码久久久九九九AV| 中文字幕一区二区三区| 台湾佬中文娱乐网22| 国产欧美日韩专区| 亚洲成人免费久久av|