亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)融合情感分析模型研究

        2021-06-16 16:43:12羅徑庭王勇王瑛
        電子技術與軟件工程 2021年4期
        關鍵詞:界標特征向量特征提取

        羅徑庭 王勇 王瑛

        (廣東工業(yè)大學計算機學院 廣東省廣州市 510003)

        1 引言

        智能機器正成為現(xiàn)代生活中不可或缺的一部分。近年來,這個問題的重要性引起了人們對人機交互領域的更多關注。大家期望改善人與機器之間的關系質量,以使其更加貼近現(xiàn)實,友好,更具有互動性。要大幅增進人機關系,其中最大的影響因素之一就是通過機器識別人類的情感,從而讓其做出適當?shù)姆答?。言語是人與人之間表達情感的一種普遍交流方式。盡管如此,行為、口音等的復雜性可能會對從語音中識別情感造成困擾。除了語音分析外,還可以利用面部表情的研究來識別人類的情感,將兩者加以融合分析的識別效果會更佳。在多模態(tài)情感識別領域,前人已經提出了大量計算模型,包括張量融合網絡、記憶融合網絡、多級注意力循環(huán)網絡等。傳統(tǒng)的多模態(tài)情感識別方法通常將單個模態(tài)信號建模為獨立的向量表示,通過模態(tài)融合進行多模態(tài)之間相互關聯(lián)信息的情感建模。但在處理面部模態(tài)信息時往往分別對單幀圖像進行特征提取,導致連續(xù)幀的幀間信息沒有充分利用。為解決傳統(tǒng)的多模態(tài)情感識別系統(tǒng)的問題,本文將面部界標在連續(xù)幀上的位移看作一組時間序列,通過離散小波變換(Discrete Wavelet Transform, DWT)[1]提取出視覺特征。DWT 通過將原始信號分為低頻和高頻分量,即近似分量和細節(jié)分量,來揭示隱藏在信號中的信息,將子帶系數(shù)中收集的信息進行組合形成視覺特征,并與音頻特征進行融合構建出最終的特征向量。

        2 多模態(tài)情感識別系統(tǒng)

        人類通過情感表達來進行更有效的交流,這體現(xiàn)在面部運動、語調變化、手或身體運動以及生物信號之中。人類情感狀態(tài)的分析已被納入情感計算領域,情感計算是對人類情感系統(tǒng)的研究和開發(fā)的過程,該系統(tǒng)由計算機科學、心理學和認知科學交叉形成,它們共同協(xié)作來識別、解釋、處理和模擬人類情感。情感識別領域的主要挑戰(zhàn)之一是缺乏統(tǒng)一的分類系統(tǒng)的協(xié)議。每個人的情感行為都是復雜多變的,而情感本身取決于個體的性格特征和內心狀態(tài)。因此在大多數(shù)情況下無法用一套基本情感作為標準來對情感進行分類。心理學家根據這個理論性的問題引入了不同的情感分類模型,既情感是一種離散現(xiàn)象,因此是可區(qū)分、可測量且可分離的。前人對不同文化之間的情感的相似性和差異性做了各種研究,提出了六種基本的人類情感,即恐懼、厭惡、憤怒、驚訝、喜悅和悲傷。而基本情感可以用不同的方式組合起來,形成與人類情感相關的全部復雜情感。例如,憤怒和厭惡可以組合起來表示鄙視。在情感識別系統(tǒng)中,特征提取過程的地位至關重要。本研究中提取的特征分為音頻特征模態(tài)和視覺特征模態(tài)這兩種不同的模式。并且提出了一種新的視覺特征提取方法,該方法通過分析各個面部界標的位移信號來識別面部表情。本文將連續(xù)的跨幀語音界標位移用于視覺特征提取。因為是各種情感所對應的特定界標的位置是不同的,所以生成的位移時間序列將有所不同,可以用作特征提取的原始數(shù)據。將界標的運動變化看作一個時間序列,本文就能夠采用不同的信號變換來提取特征。在音頻模態(tài)中,除了韻律特征之外,本文還提取了三種聲譜和倒譜的特征類型,即梅爾頻率倒譜系數(shù)[2],感知線性預測[3],線性預測編碼[4]以及第一、第二時間特征導數(shù)[5]。情感識別領域的主要挑戰(zhàn)之一是缺乏統(tǒng)一的分類系統(tǒng)的協(xié)議。每個人的情感行為都是由模棱兩可和復雜的情感組合而成,而情感本身取決于性格特征以及人的內心狀態(tài)。因此,在大多數(shù)情況下,無法用一套基本情感作為標準來對情感進行分類。根據這個理論性的問題本文引入了不同的情感分類模型。情感是一類離散的行為,或者是一個更大連續(xù)體的一部分。情感是一種離散現(xiàn)象,因此是可分離的。人類普遍文化中的主要情感有六種,包括恐懼,厭惡,憤怒,驚訝,喜悅和悲傷。相比較地,從維度的角度來看,所有情感都具有二維或三維的特征,在大多數(shù)模型中這些維度通常是效價和喚醒的。

        常見的多模態(tài)情感識別的結構由五個主要部分組成,第一部分是將系統(tǒng)創(chuàng)建適當?shù)臄?shù)據集作為先決條件。該部分的各個階段包括記錄不同人類情感狀態(tài)下的語音,標記面部并進行跟蹤,以及從語音中提取說話聲音;識別并提取與情感關聯(lián)度最高的相關特征;融合音頻和視頻特征,這些特征可以在提高模型效率方面發(fā)揮重要作用。特征向量可能包含多個不相關的特征,使模型變得復雜。而應用降維技術可以提高效率,并降低最終模型的復雜程度。在上述過程進行到最后階段時,進行情感分類。分類過程中的重要過程是選擇適當?shù)囊暵犔卣骱透咝У姆诸惸P?,這樣才能得出更準確的模型。本文使用了韻律和聲譜域特征作為音頻特征,包括音量,ZCR,MFCC,LPC 以及一階和二階時間導數(shù)。除此之外,本文使用界標位移信號的提取方法來提取視覺特征,該方法利用了人臉上特定界標的位移。為了做到這點,采用了信號處理領域中的離散小波變換方法。提取到視聽特征后,進行特征融合。我們在兩個不同的級別上進行融合,即分為特征級融合和決策級融合。在特征級融合中,將從語音和視頻中提取的特征向量組合在一起,用于開發(fā)智能情感識別模型。而在決策級融合中,先通過視覺和聽覺特征導出相應的個體模型,然后以不同的決策方式得到模型輸出組合。在本項研究中,將音頻和視覺特征向量混合在一起的特征水平融合方法構成了可用于推導出分類模型的最終特征向量。特征向量可能包含許多無關和無用的特征,一方面增加了模型整體的復雜性,另一方面又降低了模型的精度。所以降維過程有助于簡化模型并提高效率。通過應用降維技術減少特征向量維數(shù)并提高最終模型的性能。最后一步是分類,將觀測值進行分類,即將數(shù)據集的特征分配到預定義的類別中。在這項研究中,各種類型的分類技術被歸入兩個大類來運用,即個體模型類和集成模型類。集成學習法就是基于此原理進行操作,一組分類器的預測組合往往比單個模型預測更好。按照這種思路,先是構建一系列基礎學習器,然后以各種方式進行組合,用以提高準確性,減少錯誤率。本研究中提取的特征將分為音頻特征模態(tài)和視覺特征模態(tài)這兩種不同的模式。面部特征提取方法可以分為以下幾種:一是幾何特征,用于研究面部敏感區(qū)域,例如眉毛、嘴巴和嘴唇,可以檢測情感。臉部界標之間的距離、角度和面部上特定區(qū)域的形狀就屬于此類示例。二是表達面部豐富的表情紋理變化的外貌特征,例如皮膚的褶皺。然而主要的挑戰(zhàn)來自所提出的方法的魯棒性、環(huán)境條件以及由于面部解剖結構的復雜性而引起的個體差異之間的沖突。本文提出的基于界標位移的視覺特征提取方法通過分析各個面部界標的位移信號來識別面部表情,將連續(xù)的跨幀語音界標位移用于視覺特征提取。這么做的主要原因是各種情感所對應的特定界標的位置是不同的。所以生成的位移時間序列將有所不同,可以用作特征提取的原始數(shù)據。將界標的運動變化看作一個時間序列,我們就能夠采用不同的信號變換來提取特征,比如可以使用離散小波變換這個信號處理應用中常用的工具來提取特征。

        界標的位移信號可以看作是所提出的視覺提取方法的原始數(shù)據。位移信號是根據連續(xù)幀中界標位置的變化生成的。假設在二維坐標中將每個界標定義為(x,y),并生成兩種不同的信號,一種用于表示沿水平軸位移的界標,另一個用于表示沿垂直軸位移的界標。則信號的總數(shù)為2×n,其中n 是界標的數(shù)量。

        應用數(shù)學信號變換可以揭示原始信號中的隱藏信息。在這項研究中,離散小波變換被用來提取視覺特征。由此運用到了DWT系數(shù),即近似值和細節(jié)系數(shù)。這些系數(shù)通過使用快速小波變換算法來算得,該算法運用一系列具有不同截止頻率的高通和低通濾波器,將信號分解為不同的子帶。每個低通濾波器的輸出會被再次過濾,以便進一步分解。 下一步計算統(tǒng)計參數(shù)。利用離散小波變換的輸出,包含不同層別的近似值和細節(jié)系數(shù)來形成最終的特征向量。然而,由于子帶系數(shù)的數(shù)量眾多,因此放棄使用所有系數(shù),轉而使用統(tǒng)計參數(shù),例如均值和標準差。在最后階段,以不同子帶系數(shù)的平均值和標準偏差值為基礎來構建整體特征向量。為構建好這個向量,使用到了所有與面部的界標相關聯(lián)的信號。本研究中也使用到了原始信號的均值和標準差。在音頻模態(tài)的研究案例中,除了韻律特征,即音量和ZCR 之外,還提取了三種聲譜和倒譜的特征類型,即梅爾頻率倒譜系數(shù)(MFCC),感知線性預測(PLP),線性預測編碼(LPC)以及第一、第二時間特征導數(shù)。MFCC 用來估算人類聽覺系統(tǒng)的頻率響應,并運用它的非線性頻率標尺,即梅爾頻率來估算人類聽覺系統(tǒng)的靈敏度。PLP 以三種與聽覺概念相關的人類心理物理學為基礎進行語音建模,這三種物理學分別是臨界帶聲譜分辨率,等響度曲線和強度響度冪律;與MFCC 不同,這種方法是基于Bark 標尺來扭曲聲譜。LPC 則以激發(fā)源通過線性濾波器的形式來估算語音生成過程;由于人類聽覺系統(tǒng)對電極反應相當敏感,因此LPC 認為聲道是純粹的電極模型。

        3 實驗及結果分析

        我們應用不同的分類方法比較不同模型的性能,并且比較了在特征融合前后以及使用降維方法前后的分類模型的性能。本文使用了SAVEE 情感數(shù)據集進行測試。由于數(shù)據集樣本中被試者面部共標記有65 個界標,則x 軸和y 軸上共會生成130 個位移信號。通過使用三級DWT,提取子帶系數(shù),分別為cD1、cD2、cD3 和cA3,然后用DWT 系數(shù)的均值和標準差以及原始信號形成最終特征向量。本文采用十折交叉驗證法測試模型的性能。如前所述,音頻特征向量包括ZCR、MFCC、LPC、RASTA-PLP 以及第一和第二時間導數(shù)。使用重疊率為25%的漢明窗將每幀的長度控制為20ms,并使用所有語音幀的均值和標準偏差系數(shù)來獲得音頻特征向量。 則最終特征向量的大小為 。為了比較和評估本文提出的模型性能,選用以下幾種主流的多模態(tài)情感分析方法作為對比,實驗結果如表1 所示。MFM(Multimodal Factorization Model):該方法提出了一種全新的視角來學習多模態(tài)特征表示,它能夠將每種模態(tài)信息分解為共享的判別因子和獨有的生成因子。MCTN(Multimodal Cyclic Translation Network):該方法基于編碼器和解碼器結構,學習模態(tài)之間的轉換關系,并利用循環(huán)一致性損失構建多模態(tài)特征表示。RMFN(Recurrent Multistage Fusion Network):該模型將跨模態(tài)的融合過程分解為多個階段進行,并使用循環(huán)神經網絡捕獲時序模態(tài)內部的信息。CIM-MTL:該方法是基于多任務學習的多模態(tài)情感分析模型,它利用情感細粒度的多標簽分類任務,輔助提升主任務的性能。MulT:該模型基于多頭注意力機制和Transformer結構,學習模態(tài)兩兩之間的轉換關系,能夠捕捉跨模態(tài)的交互關系。

        表1: SAVEE 數(shù)據集上的實驗結果

        本文采用七分類準確度(Acc-7)、二分類準確度(Acc-2)、F1 值、平均絕對誤差(Mean Absolute Error,MAE)和皮爾遜相關系數(shù)(Pearson Correlation,Corr)作為評價指標。根據實驗結果可以得出結論,本文方法在SAVEE 數(shù)據集上取得了最優(yōu)的結果。

        4 總結

        本篇論文介紹了一種多模態(tài)情感識別系統(tǒng)。其中音頻特征包括過零率、MFCC、LPC、RASTA-PLP 和時間導數(shù)。我們提出了一種新穎的視覺特征提取方法,并將其作為識別系統(tǒng)的主要部分。該方法使用跨連續(xù)幀的界標隨時間變化而產生的時間序列進行特征提取。本文使用位移界標信號的DWT系數(shù)來構建最終特征向量。同時,為了降低生成模型的復雜程度,我們應用了各種以關聯(lián)性為基礎的特征選擇技術。本研究各項實驗結果都是在SAVEE 數(shù)據集上運行得出的。實驗結果表明,F(xiàn)RNN 分類器在三種數(shù)據集上都表現(xiàn)最優(yōu)。證明了與原始位移信號相關的特征在情感識別過程中起著重要作用,并且它們在選定的特征總數(shù)中占了很大一部分比例,如DWT子帶特征,研究結果表明將DWT 系數(shù)降到較低的層級后,它對模型性能的提高會起到更加重要的作用。此外,在大多數(shù)情況下,音頻和視覺特征的融合會促使派生模型的性能得到改善。

        猜你喜歡
        界標特征向量特征提取
        “紀檢監(jiān)察學”界域指認的偏誤與匡正
        二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
        克羅內克積的特征向量
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一類特殊矩陣特征向量的求法
        英語介詞一詞多義的認知研究
        北方文學(2017年18期)2017-07-31 10:31:05
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調的多故障特征提取
        從認知角度看OUT OF的基本意象圖式及其隱喻性擴展
        久久国产亚洲精品超碰热| 中文字幕人妻伦伦| 狠狠色噜噜狠狠狠狠米奇777| 亚洲人在线观看| 久久爱91精品国产一区| 免费无码又爽又刺激又高潮的视频 | 日本丰满熟妇videossexhd| 欧美性性性性性色大片免费的| 无限看片在线版免费视频大全| 国产毛片A啊久久久久| 人妖啪啪综合av一区| 亚洲精品av一区二区| 日本丰满熟妇videossexhd | 色综合久久丁香婷婷| 午夜无码无遮挡在线视频| 国产日产亚洲系列首页| 人妻少妇久久久久久97人妻| 国产农村乱子伦精品视频| 香蕉视频在线观看国产| 日韩久久av电影| 熟女一区二区国产精品| 性欧美丰满熟妇xxxx性久久久| 欧美老熟妇喷水| 久久人人爽天天玩人人妻精品| 日韩av一区二区毛片| 九一精品少妇一区二区三区| 亚洲av无码乱码国产麻豆| 男女后进式猛烈xx00动态图片 | 亚洲色欲色欲欲www在线| 亚洲伊人av天堂有码在线| 免费国产黄网站在线观看可以下载| 美日韩毛片| 加勒比一区二区三区av| 亚洲日韩精品a∨片无码加勒比 | 欧美国产日韩a在线视频| 人妻中出精品久久久一区二| 99麻豆久久精品一区二区| 国产办公室秘书无码精品99| 99香蕉国产精品偷在线观看| 亚洲性69影视| 中文字幕亚洲精品在线免费|