亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輔助模態(tài)監(jiān)督訓練的情緒識別神經(jīng)網(wǎng)絡

        2020-11-17 09:43:15鄒紀云許云峰
        河北科技大學學報 2020年5期
        關鍵詞:深度學習

        鄒紀云 許云峰

        摘 要:為了解決多模態(tài)數(shù)據(jù)中數(shù)據(jù)樣本不平衡的問題,利用資源豐富的文本模態(tài)知識對資源貧乏的聲學模態(tài)建模,構建一種利用輔助模態(tài)間相似度監(jiān)督訓練的情緒識別神經(jīng)網(wǎng)絡。首先,使用以雙向門控單元為核心的神經(jīng)網(wǎng)絡結(jié)構,分別學習文本與音頻模態(tài)的初始特征向量;其次,使用SoftMax函數(shù)進行情緒識別預測,同時使用一個全連接層生成2個模態(tài)對應的目標特征向量;最后,利用該目標特征向量計算彼此之間的相似度輔助監(jiān)督訓練,提升情緒識別的性能。結(jié)果表明,該神經(jīng)網(wǎng)絡可以在IEMOCAP數(shù)據(jù)集上進行情緒4分類,實現(xiàn)了826%的加權準確率和813%的不加權準確率。研究結(jié)果為人工智能多模態(tài)領域的情緒識別以及輔助建模提供了參考依據(jù)。

        關鍵詞:計算機神經(jīng)網(wǎng)絡;情緒識別;有監(jiān)督訓練;深度學習;多模態(tài)

        中圖分類號:TP31113 ? 文獻標識碼:A ? doi:10.7535/hbkd.2020yx05006

        Abstract:In order to solve the problem of imbalance of data samples in multi-modal data, the resource-rich text modal know-ledge was used to model the resource-poor acoustic mode, and an emotion recognition neural network was constructed by using the similarity between auxiliary modes to supervise training. Firstly, the neural network with bi-GRU as the core was used to learn the initial feature vectors of the text and acoustic modalities. Secondly, the SoftMax function was used for emotion recognition prediction, and simultaneously a fully connected layer was used to generate the target feature vectors corresponding to the two modalities. Finally, the target feature vector assisted the supervised training by calculating the similarity between each other to improve the performance of emotion recognition. The results show that this neural network can perform four emotion classifications on the IEMOCAP data set to achieve a weighted accuracy of 82.6% and an unweighted accuracy of 81.3%. The research result provides a reference and method basis for emotion recognition and auxiliary modeling in the multi-modal field of artificial intelligence.

        Keywords:computer neural network; emotion recognition; supervised training; deep learning; multimodal

        情緒通常由組合的多模態(tài)信息表示[1-2]。在表達不同情緒時,每個模態(tài)信息具有不同的比例。例如,驚奇和憤怒往往包含較少的文本模態(tài)信息,而聲學模態(tài)信息在識別這2種情緒方面更為重要和有效。針對多模態(tài)情緒識別問題,本文著重從文本和聲學2種模態(tài)進行情緒識別研究。

        提取不同模態(tài)特征并尋找互補信息進行融合是解決模態(tài)信息缺失、提高多模態(tài)情緒識別性能的關鍵。目前已有的表示方法通常分為聯(lián)合表示和協(xié)調(diào)表示。聯(lián)合表示最簡單的例子是不同模態(tài)特征的直接組合。DMELLO等[3]和PORIA等[4]利用雙向長期短期記憶網(wǎng)絡分別提取不同模態(tài)特征,控制它們在相同尺寸后進行拼接融合。在此基礎上,PORIA等[5]又引入了注意力機制,進一步改進了融合方法。在協(xié)調(diào)表示方法上,GHOSAL等[6]提出了一種基于遞歸神經(jīng)網(wǎng)絡的多模態(tài)注意力框架,該框架利用上下文信息進行話語水平的情感預測。LEE等[7]利用可訓練的注意力機制學習這些形態(tài)特征向量之間的非線性相關性,有助于在時域中保留數(shù)據(jù)的情緒信息,限制不同模態(tài)之間的信息協(xié)調(diào)表示[1]。PAN等[8]提出了一種聯(lián)合嵌入模型,探索了視頻模態(tài)與文本模態(tài)語義之間的關系。XU等[9]將聯(lián)合空間中的深層視頻模型和合成語言模型的輸出距離最小化,共同更新這2個模型,提高了情緒識別任務性能。除表示方法外,多任務聯(lián)合學習已廣泛用于情感識別領域。AKHTAR等[10]提出了一個深度多任務學習框架,該框架共同執(zhí)行情感和情緒分析。LI等[11]利用傳統(tǒng)的機器學習方法對情緒進行分類,使用文本模態(tài)提取情緒誘因。XIA等[12-13]提取文檔中潛在的情緒和誘因,進一步提出了一種基于循環(huán)遞歸神經(jīng)網(wǎng)絡分層網(wǎng)絡的聯(lián)合情緒-誘因提取框架。

        這些代表性的融合方法在很大程度上依賴于有效的輸入功能,如果缺失了某些模態(tài)信息,則無法有效完成情緒識別任務。同時,多任務聯(lián)合學習的子任務大多通過損失函數(shù)直接進行交互,缺乏進一步捕獲子任務之間相關信息的方法。

        本文并沒有使用統(tǒng)一的框架學習不同模態(tài)信息的特征表示,而是針對不同模態(tài)構建了不同的神經(jīng)網(wǎng)絡模型來學習表示,為了更有效地利用豐富的模態(tài)資源,提出了一種使用輔助模態(tài)監(jiān)督訓練的多任務情緒識別模型,通過最大化與輔助模態(tài)的相似性,提高情感識別任務的性能。

        1 模態(tài)表示及多任務學習

        11 模態(tài)表示

        在文本模態(tài)中,使用word2vec預訓練詞典進行嵌入,并透過雙向遞歸神經(jīng)網(wǎng)絡獲取包含上下文信息的高階特征仍然是一種主流且有效的方法。JIAO等[14]使用分層門控遞歸單元網(wǎng)絡在話語級別探索文本模態(tài)的特征表示。在聲學模態(tài)中,本文將現(xiàn)有基于特征工程的特征表示分為2種:局部特征和全局特征,認為語音片段內(nèi)的局部特征信號是穩(wěn)定的,全局特征是通過測量多個統(tǒng)計數(shù)據(jù)(例如平均、局部特征的偏差)進行計算。ZHOU等[15]利用openSMILE工具包[16]提取聲學的全局特征,每個聲音片段都會獲得1 582個統(tǒng)計聲學特征。LI等[17]使用LibROSA語音工具包[18],從原始語音中以25 ms幀窗口大小和10 ms幀間隔提取聲音的局部特征,最終提取了41維幀級聲學局部特征。同時考慮這2種特征的原因是全局特征缺少時間信息,且在2個片段之間缺乏依存關系。根據(jù)不同特征的特點,本文使用深度學習方法將它們?nèi)诤显谝黄?,以獲得更有效的聲學模態(tài)表示信息。

        12 多任務學習

        AKHTAR等[10]提出了基于上下文級別的模態(tài)注意框架,用于同時預測多模態(tài)樣本的情感和表達的情緒。在分類任務設置上,情感分類分支包含用于分類的SoftMax層,而對于情緒分類,每種情緒分別使用Sigmoid層。XU等[9]提出了一個解決情緒誘因提?。‥CPE)任務的2步框架,該框架執(zhí)行獨立的情緒提取或者誘因提取,進行情緒-誘因配對和過濾。為了進一步獲得任務之間可以相互促進的信息,本文提出將計算聲學和文本模態(tài)之間的相似度作為輔助任務的方法,以便將一個任務的預測值直接參與到另一個任務中。

        2 問題定義

        4.4 訓練細節(jié)和參數(shù)設置

        采用PyTorch框架實現(xiàn)整體模態(tài)相似性和情緒識別多任務模型。在每個訓練時期開始時隨機打亂訓練集,在提取文本和聲音模態(tài)特征的過程中,將最后1個維度參數(shù)d設置為100,當在句子級別上進行上下文信息學習時,雙向GRU隱藏狀態(tài)的維度設置為300,最后1個完全連接層包含100個神經(jīng)元。聲學模態(tài)的不同特征是在模態(tài)內(nèi)進行拼接的,每個聲學特征模型的隱藏狀態(tài)尺寸設置為50,所有GRU模塊的層數(shù)設置為1。采用Adam函數(shù)[27]作為優(yōu)化器,將學習率設置為1×10-4。終止訓練的條件是驗證集的loss值連續(xù)10輪不再下降。

        4.5 對比基線

        將本文模型的各個模塊與當前最新的4個基線模型進行比較,4個模型如下。

        1)bcLSTM:可以包含句子級雙向上下文信息LSTM,使用CNN提取的多模態(tài)特征。

        2)MDNN:半監(jiān)督的多路徑生成神經(jīng)網(wǎng)絡,通過openSMILE提取的聲學特征。

        3)HiGRU:一個分層的門控循環(huán)單元(HiGRU)框架,文本模態(tài)特征由較低級別的GRU提取。

        4)HFFN:使用雙向LSTM,直接連接不同的局部交互作用,并將2個級別的注意力機制與CNN提取的多模態(tài)特征整合在一起。

        4.6 實驗結(jié)果與討論

        1)將使用輔助模態(tài)監(jiān)督訓練情緒識別神經(jīng)網(wǎng)絡的性能分析結(jié)果在IEOMCAP和MOSI數(shù)據(jù)集上與4個基線進行比較,如表3所示。

        由表3可以看出,本文模型在4個評估指標上均優(yōu)于其他方法。其中聲學模態(tài)未加權準確率在IEMOCAP數(shù)據(jù)集上有顯著改善,文本模態(tài)的WA和UWA也均有所改善,分別實現(xiàn)了0.5%和0.7%的提升。在CMU-MOSI數(shù)據(jù)集上,文本和聲學模態(tài)的F1值分別比最高基準提高0.7%和0.3%?;谝陨蠈嶒灲Y(jié)果,分析如下:①本文模型對提高精度有一定的作用,聲學模態(tài)的改進效果比文本模態(tài)更勝一籌。 CMU-MOSI數(shù)據(jù)集是一種情感分類任務,在CMU-MOSI數(shù)據(jù)集上2種模態(tài)的F1值已得到改善,表明獲得了更加平衡的識別結(jié)果,在避免大多數(shù)預測都只具有一種情感的情況下提高了準確性。此外,文本模態(tài)似乎對聲學模態(tài)更有幫助。②本文模型在IEMOCAP數(shù)據(jù)集所有模態(tài)上的性能都有所提高,但在CMU-MOSI數(shù)據(jù)集上卻沒有顯著提高。由于從YouTube抓取的CMU-MOSI數(shù)據(jù)集是從實際情況中獲得的,IEMOCAP數(shù)據(jù)集是基于演員的表演,因此,本文模型還需要改進對更多隱藏句子情感的識別。

        2)對情緒識別任務和模態(tài)相似性任務的目標函數(shù)設置權重,分析權重對最終任務性能的影響,并通過權重參數(shù)λ進行調(diào)節(jié)。

        首先,使用非端到端技術實現(xiàn)原始輸入模態(tài)和預測生成模態(tài)的融合,作為最終性能檢測方法。MSER模型訓練后分別獲得預測模態(tài)(Apred,Tpred),預測生成模態(tài)用于替換模型測試階段中的原始輸入模態(tài)T或A之一。融合實驗(Apred+T,Tpred+A)的結(jié)果如圖3所示,通過混淆矩陣可以更加直觀地發(fā)現(xiàn),聲學模態(tài)在得到預測生成的文本模態(tài)向量后,其性能得到了明顯改善。

        其次,將文本模態(tài)和聲學模態(tài)情緒識別任務的目標函數(shù)權重μ設置為0.5,利用不同的情緒識別和模態(tài)相似性任務權重,分析對整體框架的影響,如圖4所示。本文使用的權重設置為01~05,其中水平軸代表權重,垂直軸代表情感識別任務的未加權準確性(UWA)。由圖4可知,當權重為0.3時,文本模態(tài)和聲學模態(tài)的情緒識別性能最佳。綜上所述,設置計算出的模態(tài)相似度影響目標函數(shù)的任務,可以促進情緒識別任務性能的提高;情緒識別任務仍應設置為權重較大的主要任務,情緒識別任務上的參數(shù)更新對整個框架具有較大的影響。

        5 結(jié) 語

        1)本文提出了一個模態(tài)相似度和情緒識別多任務框架,利用輔助模態(tài)監(jiān)督訓練方法,解決了跨模態(tài)情緒識別過程中的一些缺陷。

        2)使用非端到端方法完成了最終任務,大量實驗證明了該方法對情緒識別的有效性。

        3)所提方法通過使用來自一種模態(tài)的知識對另一種模態(tài)進行建模,這種通過計算模態(tài)之間相似度擬合其他模態(tài)情緒分類的特征向量方法,可以以一種真正有效的方式利用不同模態(tài)之間的補充信息,實現(xiàn)了多模態(tài)數(shù)據(jù)相關性的更有效利用。

        4)本文方法尚未構建端到端模型,未來將繼續(xù)探索使用輔助模態(tài)的端到端方法,以實現(xiàn)在缺失某些模態(tài)情況下提高單個模態(tài)性能的目標。

        參考文獻/References:

        [1] BALTRUSAITIS T,AHUJA C,MORENCY L P.Multimodal machine learning:A survey and taxonomy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(2):423-443.

        [2] CHEN J. Natural Language Processing and Attentional-Based Fusion Strategies for Multimodal Sentiment Analysis[D]. London: Imperial College London, 2018.

        [3] DMELLO S K, KORY J. A review and meta-analysis of multimodal affect detection systems[J]. ACM Computing Surveys, 2015, 47(3): 1-36.

        [4] PORIA S,CAMBRIA E,HAZARIKA D,et al.Context-dependent sentiment analysis in user-generated videos[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).[S.l.]: Association for Computational Linguistics,2017:873-883.

        [5] PORIA S, CAMBRIA E, HAZARIKA D, et al. Multi-level multiple attentions for contextual multimodal sentiment analysis[C]//2017 IEEE International Conference on Data Mining(ICDM). [S.l.]: IEEE, 2017: 1033-1038.

        [6] GHOSAL D, AKHTAR M S, CHAUHAN D, et al. Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics,2018: 3454-3466.

        [7] LEE C W,SONG K Y,JEONG J,et al.Convolutional Attention Networks for Multimodal Emotion Recognition From Speech and Text Data[EB/OL]. [2020-07-10]. https://arxiv.org/abs/1805.06606.

        [8] PAN Y W, MEI T, YAO T, et al. Jointly modeling embedding and translation to bridge video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.[S.l.]:[s.n.], 2016: 4594-4602.

        [9] XU R, XIONG C, CHEN W, et al. Jointly modeling deep video and compositional text to bridge vision and language in a unified framework[C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. [S.l.]:[s.n.], 2015: 2346-2352.

        [10] AKHTAR M S,CHAUHAN D S,GHOSAL D,et al.Multi-task Learning for Multi-modal Dmotion Recognition and Sentiment Analysis[EB/OL]. [2020-07-15]. https://arxiv.org/abs/1905.05812.

        [11] LI W Y, XU H. Text-based emotion classification using emotion cause extraction[J]. Expert Systems with Applications, 2014, 41(4): 1742-1749.

        [12] XIA R,DING Z X.Emotion-cause Pair Extraction:A New Task to Emotion Analysis in Texts[EB/OL]. [2020-07-15]. https://arxiv.org/abs/1906.01267.

        [13] XIA R,ZHANG M R,DING Z X.RTHN:A RNN-transformer Hierarchical Network for Emotion Cause Extraction[EB/OL].[2020-07-15]. https.//arxiv.org/abs/1906.01236.

        [14] JIAO W X,YANG H Q,KING I,et al.HiGRU:Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition[EB/OL].[2020-07-15]. https://arxiv.org/abs/1904.04446.

        [15] ZHOU Suping, JIA Jia, WANG Qi,et al. Inferring emotion from conversational voice data: A semi-supervised multi-path generative neural network approach[C]// Thirty-Second AAAI Conference on Artificial Intelligence.[S.l.]:[s.n.],2018:579-587.

        [16] EYBEN F, WLLMER M, SCHULLER B. Opensmile: The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM international conference on Multimedia. New York:ACM Press,2010: 1459-1462.

        [17] LI R N,WU Z Y,JIA J,et al.Inferring user emotive state changes in realistic human-computer conversational dialogs[C]//2018 ACM Multimedia Conference on Multimedia Conference.New York:ACM Press,2018:136-144.

        [18] MCFEE B,RAFFEL C,LIANG D W,et al.Librosa:Audio and music signal analysis in python[C]//Proceedings of the 14th Python in Science Conference.Austin: SciPy,2015:18-25.

        [19] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning Phrase Representations using RNN Encoder-decoder for Statistical Machine Translation[EB/OL].[2020-07-16]. https.//arxiv.org/abs/1406.1078.

        [20] SLIZOVSKAIA O,GMEZ E,HARO G.A Case Study of Deep-learned Activations via Hand-crafted Audio Features[EB/OL].[2020-07-16]. https://arxiv.org/abs/1907.01813.

        [21] BADSHAH A M, AHMAD J, RAHIM N, et al. Speech emotion recognition from spectrograms with deep convolutional neural network[C]//2017 International Conference on Platform Technology and Service(PlatCon). [S.l.]:IEEE, 2017: 1-5.

        [22] BUSSO C,BULUT M,LEE C C,et al.IEMOCAP:Interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42(4):335-359.

        [23] ZADEH A, ZELLERS R, PINCUS E, et al. Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages[J]. IEEE Intelligent Systems, 2016, 31(6): 82-88.

        [24] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[EB/OL]. [2020-07-07]. https://arxiv.org/abs/1301.3781.

        [25] ROZGIC V, ANANTHAKRISHNAN S, SALEEM S, et al. Ensemble of SVM trees for multimodal emotion recognition[C]//Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. [S.l.]: IEEE, 2012: 1-4.

        [26] POWERS D M. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. J Mach Learn Technol, 2011, 2(1):37-63.

        [27] KINGMA D P,BA J.Adam:A Method for Stochastic Optimization[EB/OL]. [2020-07-10]. https://arxiv.org/abs/1412.6980.

        猜你喜歡
        深度學習
        從合坐走向合學:淺議新學習模式的構建
        面向大數(shù)據(jù)遠程開放實驗平臺構建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學習的三級階梯
        有體驗的學習才是有意義的學習
        電子商務中基于深度學習的虛假交易識別研究
        利用網(wǎng)絡技術促進學生深度學習的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構
        大數(shù)據(jù)技術在反恐怖主義中的應用展望
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        亚洲AV一二三四区四色婷婷| 麻豆国产精品va在线观看不卡| 中文字幕日韩精品一区二区三区| 精品国产aⅴ无码一区二区| 连续高潮喷水无码| 精品黄色一区二区三区| 女优一区二区三区在线观看 | 中文字幕久久精品一二三区| 97视频在线播放| 丰满人妻一区二区三区免费| 日产一区二区三区免费看| 国产精品第一国产精品| 日韩国产欧美| 国产99视频一区二区三区| 国产精品一区二区性色| 午夜无码国产理论在线| 久久福利青草精品资源| 日本视频一区二区这里只有精品| 国产精品偷窥熟女精品视频| 好日子在线观看视频大全免费动漫| 久久精品国产亚洲Av无码偷窍| 精品久久免费国产乱色也| 人妻丰满熟妇aⅴ无码| 无码人妻丰满熟妇片毛片| 亚洲电影久久久久久久9999| 精品国产亚洲av高清日韩专区| 人妻少妇久久中文字幕| 国产精品无码日韩欧| 国产三级国产精品三级在专区| 天堂蜜桃视频在线观看| 国产免费av片无码永久免费 | 久热国产vs视频在线观看| 国产精品无码无片在线观看| 手机av在线观看视频| 免费a级毛片在线播放| 国产成人综合亚洲精品| 国产av无码专区亚洲草草| 极品尤物在线精品一区二区三区| 精品丰满人妻无套内射| 欧美a在线播放| 国产av一区二区制服丝袜美腿|