亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于層次化R?GCN 的會(huì)話情緒識(shí)別方法

        2022-01-14 03:02:00賴河蒗李玲俐胡婉玲顏學(xué)明
        計(jì)算機(jī)工程 2022年1期
        關(guān)鍵詞:情緒

        賴河蒗,李玲俐,胡婉玲,顏學(xué)明

        (1.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣州 510631;2.廣東司法警官職業(yè)學(xué)院信息管理系,廣州 510520;3.廣東外語外貿(mào)大學(xué)信息科學(xué)與技術(shù)學(xué)院,廣州 510006)

        0 概述

        隨著人工智能技術(shù)的快速發(fā)展,推薦系統(tǒng)、輿情預(yù)測(cè)、財(cái)務(wù)預(yù)測(cè)、智能搜索、對(duì)話系統(tǒng)、人機(jī)交互等相關(guān)應(yīng)用得到普及,其中,人機(jī)交互受到科研人員的廣泛關(guān)注。用戶在交互過程中會(huì)產(chǎn)生各種形式的生理和行為數(shù)據(jù),人工智能追求的目標(biāo)是人機(jī)可以無縫銜接,即當(dāng)用戶與機(jī)器進(jìn)行情感交互時(shí),機(jī)器可以全面準(zhǔn)確地分析交互數(shù)據(jù)并洞察、理解、表達(dá)各種情緒。因此,需要構(gòu)建能夠識(shí)別和理解情緒的機(jī)器,使得它們可以像人類一樣進(jìn)行自然和友好的互動(dòng)。

        情緒是人們受到外界刺激時(shí)在感覺、思想或行為等方面所產(chǎn)生的一些心理或生理反應(yīng)[1],如生氣、開心、傷心、興奮、沮喪、害怕、驚訝等。情緒在人們的生活中發(fā)揮著極其重要的作用,其會(huì)影響人們的日常交流、行為舉止、判斷、決策等。情緒識(shí)別是指通過對(duì)表達(dá)的信息(通常該信息單元是一個(gè)“話語”)進(jìn)行分析,進(jìn)而判斷該“話語”屬于哪一種情緒。雖然當(dāng)前已經(jīng)有較多關(guān)于情緒識(shí)別方面的研究,但是較少有學(xué)者對(duì)會(huì)話情緒識(shí)別進(jìn)行研究。隨著神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)[2-3]等人工智能技術(shù)的發(fā)展,會(huì)話情緒識(shí)別成為研究熱點(diǎn),在對(duì)話系統(tǒng)中,情緒識(shí)別極其重要,其要求機(jī)器人能識(shí)別并透徹地理解會(huì)話中的情緒,從而給出帶有感情的響應(yīng)或回復(fù)。然而,由于會(huì)話中說話者之間存在很強(qiáng)的相互依賴性,使得會(huì)話情緒識(shí)別成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)[4]。在一個(gè)交互的會(huì)話中,有2 個(gè)重要因素影響情緒動(dòng)態(tài)變化:一為說話者自身的情緒影響,指?jìng)€(gè)人在某一時(shí)刻的情緒傳遞到另一時(shí)刻;二為說話者之間的情緒影響[5-6],指?jìng)€(gè)人情緒受到了另一說話者的情緒影響。

        本文考慮上述2 個(gè)影響因素,提出一種基于層次化關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(HRGCN)的會(huì)話情緒識(shí)別方法,其層次化地使用關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(R-GCN)對(duì)會(huì)話中產(chǎn)生的序列“話語”進(jìn)行建模,從而識(shí)別會(huì)話中的情緒。具體地,用多模態(tài)表示會(huì)話中的每一個(gè)“話語”,將整個(gè)序列輸入到一個(gè)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)(該網(wǎng)絡(luò)可以是LSTM 或GRU 等),經(jīng)過基礎(chǔ)神經(jīng)網(wǎng)絡(luò)輸出后,按照不同的說話者將整個(gè)序列劃分成不同的子序列(在本文中劃分為2 個(gè)子序列)。不同的子序列輸送到局部R-GCN(隸屬于不同的說話者)進(jìn)行計(jì)算,并將計(jì)算結(jié)果按照會(huì)話發(fā)生的時(shí)間順序相級(jí)聯(lián),級(jí)聯(lián)后的序列“話語”送到全局R-GCN中進(jìn)行計(jì)算,計(jì)算后得到的全局特征表示傳送到完全連接層進(jìn)行降維操作,完全連接層的輸出即為情緒分類預(yù)測(cè)結(jié)果。

        1 相關(guān)工作

        近年來,隨著對(duì)話系統(tǒng)應(yīng)用的普及,會(huì)話情緒識(shí)別逐漸成為人機(jī)交互領(lǐng)域中的一個(gè)研究熱點(diǎn),同時(shí)也受到國(guó)內(nèi)外研究人員的廣泛關(guān)注。會(huì)話情緒識(shí)別是一個(gè)涉及信號(hào)處理、心理學(xué)、自然語言處理、認(rèn)知科學(xué)等多個(gè)交叉學(xué)科的研究領(lǐng)域。

        PORIA 等[7]提出基于卷積多核學(xué)習(xí)的分類器以及基于上下文的層次化雙向LSTM 模型[8],以進(jìn)行多模態(tài)情緒識(shí)別以及情感分析。HAZARIKA 等[4]首先提出會(huì)話存儲(chǔ)網(wǎng)絡(luò)模型,該模型使用2 個(gè)不同的GRU 來捕獲不同說話者所表達(dá)“話語”的上下文信息,隨后,他們改進(jìn)該模型,通過增加一個(gè)GRU 對(duì)說話者之間進(jìn)行建模,該GRU 可以看作跟蹤整個(gè)會(huì)話的記憶存儲(chǔ)[9],此外,他們又提出遷移學(xué)習(xí)的方法,該方法先訓(xùn)練一個(gè)神經(jīng)對(duì)話生成模型,然后利用該模型的參數(shù)來初始化目標(biāo)情緒分類器[10]。MAJUMDER等[11]描述一個(gè)基于3 個(gè)GRU 的循環(huán)神經(jīng)網(wǎng)絡(luò),這3 個(gè)GRU 分別用于追蹤會(huì)話中說話者的個(gè)人狀態(tài)、全局上下文信息以及情感狀態(tài),該神經(jīng)模型能有效捕獲說話者之間的關(guān)系并擴(kuò)展到多個(gè)說話者的會(huì)話中。JIN 等[12]將層次化的多模態(tài)轉(zhuǎn)換器作為基礎(chǔ)網(wǎng)絡(luò),設(shè)計(jì)一個(gè)局部感知的注意力機(jī)制和一個(gè)說話者感知的注意力機(jī)制,以分別捕獲局部上下文以及說話者的情緒慣性。高瑋軍等[13]建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN,其通過注意力矩陣重點(diǎn)關(guān)注文本序列中對(duì)情感走向影響較大的部分,解決了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在提取特征過程中存在的信息丟失問題。PORIA 等[14]對(duì)會(huì)話情緒識(shí)別中存在的挑戰(zhàn)、數(shù)據(jù)集以及最新進(jìn)展進(jìn)行了詳細(xì)綜述。

        由于圖神經(jīng)網(wǎng)絡(luò)(GNN)、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和R-GCN 在捕獲相鄰信息時(shí)具有優(yōu)勢(shì)以及在預(yù)測(cè)分類方面效果較好,因此在情感分析和情緒識(shí)別領(lǐng)域得到廣泛應(yīng)用。ZHANG 等[15]提出基于圖卷積神經(jīng)網(wǎng)絡(luò)的情緒識(shí)別模型,用于解決會(huì)話中的上下文依賴以及說話者相互依賴這2 個(gè)挑戰(zhàn)性問題。ZHONG 等[16]設(shè)計(jì)一個(gè)知識(shí)豐富型的轉(zhuǎn)換器,利用層次化結(jié)構(gòu)的自我關(guān)注來詮釋上下文中的“話語”,并通過一個(gè)上下文感知的情感圖注意力機(jī)制來動(dòng)態(tài)地使用相關(guān)常識(shí)。XU 等[17]使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取以及面部表情識(shí)別分類。WANG 等[18]提出基于鎖相值的圖卷積神經(jīng)網(wǎng)絡(luò),用于多通道腦電情緒識(shí)別。SONG 等[19]設(shè)計(jì)一個(gè)動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行多通道腦電情緒識(shí)別研究。LO 等[20]提出一種基于關(guān)系建模的圖卷積神經(jīng)網(wǎng)絡(luò),并將其用于微表情識(shí)別。GHOSAL 等[21]建立一個(gè)對(duì)話圖卷積神經(jīng)網(wǎng)絡(luò),用于捕獲說話者自身以及說話者之間的相互依賴關(guān)系。

        上述方法都取得了較好的識(shí)別效果,但它們大多沒有考慮不同說話者自身表達(dá)的特點(diǎn)以及歷史上下文和將來上下文信息存在不同權(quán)重的問題。本文將不同說話者在會(huì)話中所表達(dá)的“話語”分開進(jìn)行局部建模,然后再級(jí)聯(lián)完成全局建模,在建模過程中采用非對(duì)等窗口技術(shù)表示歷史上下文和將來上下文信息所隱含的權(quán)重。

        2 層次化R-GCN 模型

        為了有效捕獲上下文之間的依賴關(guān)系,需要同時(shí)考慮說話者自身的情緒影響以及說話者之間的情緒影響。圖1 所示為IEMOCAP(Interactive Emotional dyadic Motion Capture database)數(shù)據(jù)集中抽取出的一個(gè)對(duì)話片段,其體現(xiàn)了上述2 個(gè)因素對(duì)情緒變化的影響。

        圖1 情緒影響示例Fig.1 Examples of emotional impact

        本文提出一種HRGCN 方法進(jìn)行會(huì)話情緒識(shí)別,所研究的會(huì)話是二元會(huì)話,即在會(huì)話交互過程中有2 個(gè)不同的說話者。由于不同說話者具有各自表達(dá)的特點(diǎn),本文將整個(gè)會(huì)話序列劃分成2 個(gè)不同的子序列(分別對(duì)應(yīng)2 個(gè)說話者各自表達(dá)的“話語”序列),并用2 個(gè)局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)2 個(gè)子序列進(jìn)行獨(dú)立建模。

        文獻(xiàn)[21]在劃分邊關(guān)系類型時(shí)沒有考慮“話語”在會(huì)話序列中的位置,未區(qū)分當(dāng)前測(cè)試“話語”與其他“話語”之間的距離大小。與文獻(xiàn)[21]不同,本文認(rèn)為不同時(shí)刻的“話語”所產(chǎn)生的情緒依賴影響是不同的,即不同時(shí)刻的“話語”含有不同的權(quán)重,在劃分邊關(guān)系類型時(shí),應(yīng)該將當(dāng)前測(cè)試“話語”與其他“話語”之間的距離大小作為劃分結(jié)果的主要影響因素之一。在會(huì)話過程中,當(dāng)前測(cè)試“話語”的情緒受歷史上下文的影響較大,受將來上下文的影響較小。為了強(qiáng)調(diào)當(dāng)前“話語”的歷史上下文和將來上下文所占權(quán)重不同,本文使用非對(duì)等距離大小技術(shù)來表示權(quán)重,即將歷史和將來2 個(gè)不同方向的距離設(shè)置為不同的值。例如,令測(cè)試“話語”ut與其他“話語”之間的距離大小為d,在ut的歷史上下文方向設(shè)置一個(gè)距離劃分點(diǎn),假設(shè)距離大小為,在ut的將來上下文方向設(shè)置一個(gè)距離劃分點(diǎn),假設(shè)距離大小為,然后討論d、三者之間的關(guān)系,最后得到邊關(guān)系類型以及每條邊所屬的類型。

        圖2 所示為HRGCN 結(jié)構(gòu)框架,其主要模塊有基礎(chǔ)神經(jīng)網(wǎng)絡(luò)(BNN)、局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(Local R-GCN)以及全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(Global R-GCN)。

        圖2 HRGCN 結(jié)構(gòu)框架Fig.2 HRGCN structural framework

        2.1 基礎(chǔ)神經(jīng)網(wǎng)絡(luò)

        基礎(chǔ)神經(jīng)網(wǎng)絡(luò)的目的是使多模態(tài)數(shù)據(jù)在輸入到關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)之前獲得較好的特征表示,即為后續(xù)的關(guān)系圖卷積計(jì)算打下基礎(chǔ)。該模塊可以選擇不同的神經(jīng)網(wǎng)絡(luò),如循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM 或GRU。在本文實(shí)驗(yàn)部分,分別采用這2 種不同的神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)神經(jīng)網(wǎng)絡(luò),并對(duì)比實(shí)驗(yàn)效果。

        假設(shè)有一個(gè)二元會(huì)話,其“ 話語”序列是u1,u2,u3,u4,u5,u6,其 中,u1,u2,u5是第一個(gè)說話者表達(dá) 的“話 語”,u3,u4,u6是第二個(gè)說話者表達(dá)的“話語”。將整個(gè)序列輸入到基礎(chǔ)神經(jīng)網(wǎng)絡(luò)時(shí),具體的計(jì)算過程為:首先將序列中每個(gè)“話語”的各個(gè)模態(tài)數(shù)據(jù)(包括文本、聲音和圖像)級(jí)聯(lián)起來;然后輸入到雙向LSTM 或GRU 網(wǎng)絡(luò)進(jìn)行計(jì)算,得到輸出序列q1,q2,q3,q4,q5,q6。

        2.2 局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)

        特征數(shù)據(jù)在經(jīng)過基礎(chǔ)神經(jīng)網(wǎng)絡(luò)之后,將在局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行局部關(guān)系圖卷積計(jì)算:首先,根據(jù)不同的說話者對(duì)序列“話語”進(jìn)行劃分;然后,將這2 個(gè)不同的子序列輸送到Person one RGCN 和Person two RGCN 這2 個(gè)不同的局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)。本文所提方法基于局部鄰居信息(即一定范圍內(nèi)的鄰居“話語”)進(jìn)行卷積處理,此外,考慮到歷史上下文和將來上下文隱含的權(quán)重不同,本文引入距離大小非對(duì)等技術(shù)。

        2.2.1 圖結(jié)構(gòu)

        一個(gè)具有N個(gè)“話語”的會(huì)話,其關(guān)系圖網(wǎng)絡(luò)結(jié)構(gòu)可以用一個(gè)有向圖G=(V,E,R)來表示:圖中每個(gè)頂點(diǎn)vi∈V表示一個(gè)“話 語”;頂 點(diǎn)vi和頂點(diǎn)vj(i,j∈[1,2,…,N])之間的邊為(vi,vj)∈E,邊的關(guān)系類型為r∈R。

        2.2.2 頂點(diǎn)劃分

        在對(duì)自身情緒影響進(jìn)行建模時(shí),考慮到不同說話者具有不同的特點(diǎn),本文將不同說話者在會(huì)話中所表達(dá)的“話語”進(jìn)行劃分,如圖2 所示,將序列q1,q2,q3,q4,q5,q6劃分為q1,q2,q5和q3,q4,q6。劃分后將這2 個(gè)子序列分別送到Person one RGCN 和Person two RGCN 進(jìn)行卷積運(yùn)算。

        2.2.3 基于非對(duì)等上下文窗口的邊集合

        邊集合中具體包含哪些邊取決于建模過程中考慮的上下文內(nèi)容范圍。在一個(gè)會(huì)話中,如果每個(gè)“話語”的上下文內(nèi)容考慮的范圍是其他所有的“話語”,那么會(huì)產(chǎn)生一個(gè)完全連接圖,此時(shí)每個(gè)頂點(diǎn)與所有其他頂點(diǎn)(包括自身)都有一條邊。由于這種情況會(huì)花費(fèi)大量的計(jì)算時(shí)間,因此本文只考慮局部鄰居信息進(jìn)行卷積處理,即在收集局部鄰居信息時(shí)使用上下文窗口來限制范圍。例如,將歷史上下文窗口設(shè)置為Wp,將來上下文窗口設(shè)置為Wf,圖中任意一個(gè)“話語”為vi∈V,則該“話語”vi對(duì)應(yīng)的邊集合中包含vi自 身、Wp個(gè)歷史“話 語”(在vi之前的vi-1,vi-2,…,vi-Wp)以及Wf個(gè)將來“話語”(在vi之后的vi+1,vi+2,…,vi+Wf)。

        進(jìn)一步區(qū)分Person one RGCN 和Person two RGCN網(wǎng)絡(luò)的上下文窗口,將其分別設(shè)置為Wp1、Wp2與Wf1、Wf2。為了進(jìn)行簡(jiǎn)化,在圖2 所示的模型中,這4 個(gè)窗口的大小均設(shè)置為2,需要注意的是,在優(yōu)化實(shí)驗(yàn)參數(shù)時(shí),可以將隸屬于不同說話者的Wp和Wf窗口大小設(shè)置為非對(duì)等數(shù)值。在窗口值范圍內(nèi),說話者Person one的“話語”序列q1,q2,q5所產(chǎn)生的邊有<1,1>、<1,2>、<1,5>、<2,2>、<2,1>、<2,5>、<5,5>、<5,1>、<5,2>。同 理,說話者Person two 的“話 語”序 列q3,q4,q6所產(chǎn)生的邊有<3,3>、<3,4>、<3,6>、<4,4>、<4,3>、<4,6>、<6,6>、<6,3>、<6,4>。

        2.2.4 基于非對(duì)等距離大小的關(guān)系劃分

        在二元會(huì)話中,2 個(gè)“話語”之間的時(shí)序關(guān)系依賴于它們?cè)跁?huì)話中的位置。在劃分每條邊所屬關(guān)系時(shí),本文采用基于非對(duì)等距離大小的方法來產(chǎn)生不同時(shí)序“話語”之間的邊關(guān)系類型。

        在局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)Person one RGCN中,2 個(gè)非對(duì)等距離分別用Dp1和Df1(0

        同理,在局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)Person two RGCN 中,2 個(gè)非對(duì)等距離分別用Dp2和Df2(0

        圖2中的Person one RGCN 和Person two RGCN 模塊展示的是Dp1、Df1、Dp2、Df2均設(shè)置為1時(shí)的劃分情況。

        2.2.5 基于局部序列的特征轉(zhuǎn)換

        根據(jù)2 個(gè)不同的說話者劃分出的2 個(gè)不同子序列“話語”,分別被送到Person one RGCN 和Person two RGCN 進(jìn)行特征轉(zhuǎn)換運(yùn)算。本文使用受文獻(xiàn)[21-23]啟發(fā)的特定于關(guān)系的轉(zhuǎn)換方法來進(jìn)行轉(zhuǎn)換運(yùn)算,通過收集基于非對(duì)等上下文窗口(Wp1、Wp2、Wf1、Wf2)的鄰居上下文信息(“話語”),可以將某一“話語”vx的特征qx轉(zhuǎn)換為新的特征表示。

        在Person one RGCN 中,運(yùn)算公式如下:

        在Person two RGCN 中,運(yùn)算公式如下:

        其中:x=1,2,…,N;表示“話語”vx在關(guān)系r∈Ra或r∈Rb下的鄰居“話語”的索引集合;cx,r是一個(gè)特定于問題的規(guī)范化常量,可以通過學(xué)習(xí)獲得或預(yù)先設(shè)置(如);σ是激活函數(shù);Wr、、Wo2是可以訓(xùn)練的轉(zhuǎn)換參數(shù)。

        2.3 全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)

        在局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)Person one RGCN和Person two RGCN 中分別計(jì)算出局部序列的新特征后,HRGCN 依據(jù)會(huì)話中發(fā)生的時(shí)序?qū)? 個(gè)局部序列進(jìn)行級(jí)聯(lián),形成一個(gè)具有N個(gè)“話語”的序列(如圖2 中的序列),并輸送到全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)。

        2.3.1 基于非對(duì)等上下文窗口的邊集合

        在全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)中也采用非對(duì)等上下文窗口技術(shù)。例如,將歷史上下文窗口設(shè)置為,將來上下文窗口設(shè)置為。在圖2 的模型中,和的大小分別設(shè)置為3 和2,在這2 個(gè)窗口值范圍內(nèi),“話語”序列所產(chǎn)生的邊有<1,1>、<2,2>、<5,5>、<2,1>、<5,2>、<5,3>、<5,4>、<3,3>、<4,4>、<6,6>、<4,3>、<6,4>、<6,3>、<3,1>、<3,2>、<4,2>、<6,5>、<4,1>、<1,2>、<2,3>、<5,6>、<1,3>、<2,4>、<3,4>、<4,6>、<4,5>、<3,5>。

        2.3.2 基于非對(duì)等距離大小的關(guān)系劃分

        在全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)中,邊關(guān)系類型的劃分比較復(fù)雜,需要分情況討論。為了確定某條邊的關(guān)系類型,本文考慮的因素包括“話語”的時(shí)序關(guān)系、“話語”的間隔距離關(guān)系以及“話語”的說話者關(guān)系。

        類似于局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的劃分,本文在間隔距離關(guān)系方面同樣采用基于非對(duì)等距離大小的方法。2 個(gè)非對(duì)等距離分別用和表 示,任 意2 個(gè)“話 語”分別用和表 示(i',j'∈[1,2,…,N]),“話語”和所對(duì)應(yīng)的說話者分別用和表示,會(huì)話中的第一個(gè)說話者和第二個(gè)說話者分別用pone和ptwo表示。“話語”和之間相隔的距離設(shè)置為d。在圖2的模型中,和分別設(shè)置為2 和1,則可以得到以下2 種劃分情況:

        表1 圖2 中Global R-GCN 關(guān)系劃分結(jié)果1Table 1 Global R-GCN relationship division result 1 of fig.2

        表2 圖2 中Global R-GCN 關(guān)系劃分結(jié)果2Table 2 Global R-GCN relationship division result 2 of fig.2

        所有的邊關(guān)系類型用集合Rc表示,即

        2.3.3 基于全局序列的特征轉(zhuǎn)換

        與局部序列的特征轉(zhuǎn)換計(jì)算類似,全局序列的特征轉(zhuǎn)換使用特定于關(guān)系的轉(zhuǎn)換方法,基于非對(duì)等上下文窗口收集相鄰上下文“話語”的信息,然后轉(zhuǎn)換局部特征為全局特征

        Global R-GCN 的運(yùn)算公式如下:

        2.4 預(yù)測(cè)輸出

        輸入的特征數(shù)據(jù)經(jīng)過上述層次化的關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)計(jì)算(式(1)~式(3))之后,序列中的每個(gè)“話語”都積累了其相鄰“話語”的相關(guān)信息。最后,將全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)果輸入到一個(gè)完全連接層,經(jīng)過降維后進(jìn)行預(yù)測(cè)分類。計(jì)算公式如下:

        在訓(xùn)練過程中,使用帶L2 正則化的交叉熵?fù)p失函數(shù)來計(jì)算損失值:

        其中:N表示訓(xùn)練集中所有“話語”的總個(gè)數(shù);C是情緒分類的數(shù)目;zx,y是訓(xùn)練集中第x個(gè)“話 語”屬于第y類別的真值;是預(yù)測(cè)第x個(gè)“話語”屬于第y類別的概率值;ω是L2 正則化的權(quán)重值;θ是所有訓(xùn)練參數(shù)的集合。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)基于IEMOCAP 數(shù)據(jù)集進(jìn)行[24],該數(shù)據(jù)集包含總長(zhǎng)約12 h 的二元會(huì)話視頻數(shù)據(jù),這些視頻共有5 個(gè)會(huì)話,每個(gè)會(huì)話又有若干個(gè)5 min 左右的交互視頻,每個(gè)交互視頻被進(jìn)一步劃分為若干個(gè)切片,這些切片也稱為“話語”,所有的“話語”都用多模態(tài)(文本、聲音以及圖像的級(jí)聯(lián))進(jìn)行表示,并至少由三名標(biāo)注人員標(biāo)注一個(gè)情緒標(biāo)簽。本文考慮的情緒標(biāo)簽包括生氣(anger)、開心(happiness)、傷心(sadness)、中立(neutral)、興奮(excitement)、沮喪(frustration)共6 類。表3 所示為IEMOCAP 數(shù)據(jù)集中各種情緒的分布情況。

        表3 IEMOCAP 數(shù)據(jù)集中各種情緒的分布情況Table 3 Distribution of various emotions in IEMOCAP dataset

        3.2 實(shí)驗(yàn)設(shè)置

        參考文獻(xiàn)[4,9,11,21]對(duì)特征數(shù)據(jù)集進(jìn)行預(yù)處理,且同一說話者可以出現(xiàn)在訓(xùn)練集和測(cè)試集中。在實(shí)驗(yàn)過程中,首先將下載的多模態(tài)特征數(shù)據(jù)集隨機(jī)打亂,然后隨機(jī)劃分出80%作為訓(xùn)練集和驗(yàn)證集,20%作為測(cè)試集。本文HRGCN 方法所使用的優(yōu)化器是Adam[25],學(xué)習(xí)率設(shè)為0.001。為了防止過擬合,采用Dropout[26]機(jī)制。在訓(xùn)練階段設(shè)置早停機(jī)制,如果驗(yàn)證集的損失值連續(xù)10 輪不再下降,則停止訓(xùn)練。實(shí)驗(yàn)采用的評(píng)估指標(biāo)是準(zhǔn)確率(記為ACC)和F1 分?jǐn)?shù)(記為F1)。

        本文在IEMOCAP 數(shù)據(jù)集上進(jìn)行會(huì)話情緒識(shí)別測(cè)試。實(shí)驗(yàn)中的對(duì)比模型如下:

        1)LSTM[27],即長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),是為了解決一般RNN 存在的長(zhǎng)期依賴問題而專門設(shè)計(jì)出的時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)。

        2)GRU[28],即門控循環(huán)單元,它是為解決長(zhǎng)期記憶和反向傳播中的梯度等問題而設(shè)計(jì)出的時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)。

        3)Local R-GCN,本文HRGCN 方法中的Local R-GCN 模 塊,即Person one RGCN 和Person two RGCN 這2 個(gè)部分的組合。

        4)Global R-GCN,本 文HRGCN 方法中的Global R-GCN 模塊。

        5)HRGCN(BNN=GRU),在本文HRGCN 方法的BNN 中裝載GRU 神經(jīng)網(wǎng)絡(luò)。

        6)HRGCN(BNN=LSTM),在本文HRGCN 方法的BNN 中裝載LSTM 神經(jīng)網(wǎng)絡(luò)。

        3.3 結(jié)果分析

        不同模型在IEMOCAP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出,HRGCN(BNN=LSTM)模型的識(shí)別效果最好,其次是HRGCN(BNN=GRU)模型,效果較差的是Local R-GCN 模型。

        表4 不同模型在IEMOCAP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different models on IEMOCAP dataset %

        本文HRGCN 方法的理論依據(jù)是:在會(huì)話交互的過程中,一個(gè)“話語”的情緒既受到說話者自身情緒變化的影響,也受到說話者之間情緒變化的影響[5-6]。局部R-GCN 模塊對(duì)說話者自身情緒的變化進(jìn)行建模,考慮到不同說話者會(huì)受到自身情緒變化的影響(有各自不同的表達(dá)特點(diǎn)),局部R-GCN 模塊使用2 個(gè)獨(dú)立的關(guān)系圖神經(jīng)網(wǎng)絡(luò)進(jìn)行特征轉(zhuǎn)換。全局R-GCN 模塊對(duì)說話者之間情緒的變化進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,特征數(shù)據(jù)經(jīng)過局部R-GCN 以及全局R-GCN 之后,可以更好地捕獲說話者自身以及說話者之間的情緒影響,從而提高會(huì)話情緒識(shí)別的性能。僅使用局部R-GCN 或全局R-GCN 都不能全面地捕獲以上2 個(gè)方面的影響,其中的原因可能是:?jiǎn)我坏木植拷2荒芎芎玫胤从硶?huì)話是一個(gè)交互現(xiàn)象,無法很好地捕獲說話者之間的情緒影響;單一的全局建模沒有考慮到不同說話者各自的特點(diǎn),無法較好地捕獲說話者自身的情緒變化影響。

        4 超參數(shù)分析

        本文對(duì)HRGCN(BNN=LSTM)模型的相關(guān)超參數(shù)進(jìn)行分析。令局部R-GCN 計(jì)算輸出結(jié)果的特征維度大小為localSize,全局R-GCN 計(jì)算輸出結(jié)果的特征維度大小為globalSize,本文使用隨機(jī)參數(shù)搜索方法,在實(shí)驗(yàn)中得到最優(yōu)參數(shù)組合為localSize=176,globalSize=88。當(dāng)globalSize 的大小固定為88時(shí),表5 所示為localSize 取不同值時(shí)ACC 和F1 的變化情況。當(dāng)localSize 的大小固定為176 時(shí),表6 所示為globalSize 取不同值時(shí)ACC 和F1 的變化情況。

        表5 localSize 取不同值時(shí)ACC 和F1 的變化情況Table 5 The change of ACC and F1 when localSize takes different values

        表6 globalSize 取不同值時(shí)ACC 和F1 的變化情況Table 6 The change of ACC and F1 when globalSize takes different values

        此外,為了驗(yàn)證預(yù)測(cè)輸出階段的降維操作是否對(duì)情緒識(shí)別效果產(chǎn)生影響,本文分析維度取不同值時(shí)ACC 和F1 的變化情況。令預(yù)測(cè)輸出階段的維度大小為hiddenSizeFC,表7 所示為hiddenSizeFC 取不同值時(shí)ACC 和F1 的變化情況。

        表7 hiddenSizeFC 取不同值時(shí)ACC 和F1 的變化情況Table 7 The change of ACC and F1 when hiddenSizeFC takes different values

        從表7 可以看出:在開始階段,隨著hiddenSizeFC的增大,ACC 和F1 均略有提高;當(dāng)hiddenSizeFC 取值58 時(shí),ACC 和F1 達(dá)到最好效果;隨后,在繼續(xù)增大hiddenSizeFC 時(shí),ACC 和F1 均略有下降。由此可見,預(yù)測(cè)輸出階段的維度大小對(duì)HRGCN(BNN=LSTM)模型的分類效果具有一定影響。

        5 結(jié)束語

        本文提出一種基于層次化R-GCN 的會(huì)話情緒識(shí)別方法。該方法利用2 個(gè)不同的局部關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入特征數(shù)據(jù)進(jìn)行局部建模,然后使用全局關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)所得局部建模結(jié)果進(jìn)行全局建模,從而充分考慮不同說話者自身的特點(diǎn)以及相互之間的依賴關(guān)系。在情緒識(shí)別基準(zhǔn)數(shù)據(jù)集IEMOCAP 上進(jìn)行實(shí)驗(yàn),結(jié)果表明,相比循環(huán)神經(jīng)網(wǎng)絡(luò),該方法的情緒識(shí)別性能較高,準(zhǔn)確率高達(dá)84.48%。但是,本文所提方法仍存在一定的局限性,如涉及的超參數(shù)較多、層次化神經(jīng)網(wǎng)絡(luò)組合運(yùn)算成本較高、運(yùn)算實(shí)時(shí)性不佳等。因此,下一步將優(yōu)化參數(shù)組合并通過調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等方法來降低模型的運(yùn)算復(fù)雜度。

        猜你喜歡
        情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        小情緒
        国产一区二区三区在线观看免费 | 国产精品女主播福利在线| 国产毛女同一区二区三区| 国产精品日日做人人爱| 成人试看120秒体验区| 国产午夜成人av在线播放| 国产成本人片无码免费2020| 色八a级在线观看| 国产精品后入内射日本在线观看| 91福利国产在线观看一区二区| 在线综合亚洲欧洲综合网站| av天堂久久天堂av色综合| 日本精品一区二区三本中文| 国产成人精品人人做人人爽| 有码中文字幕一区二区| 男男做h嗯啊高潮涩涩| 亚洲国产色婷婷久久精品| 风韵丰满熟妇啪啪区老老熟妇| 国产高清一区二区三区视频| 在线观看亚洲AV日韩A∨| av无码电影一区二区三区| 国产高清人肉av在线一区二区| 久久久久免费精品国产| 偷国产乱人伦偷精品视频| 亚洲av成人无码网站…| 久久伊人影院| 乱色视频中文字幕在线看| 亚洲av成人久久精品| 男人天堂亚洲一区二区| 国产精品黑丝高跟在线粉嫩| 久久www色情成人免费观看| 亚洲av熟妇高潮30p| 精品一区二区三区四区少妇| 亚洲av无吗国产精品| 亚洲女优中文字幕在线观看| 欧美又粗又长又爽做受| 亚洲国产韩国欧美在线| 亚洲区在线| 国产精品99久久精品女同| 天堂av在线美女免费| 亚洲日韩一区精品射精|