亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向多方對話的中文多模態(tài)情感語料庫構建

2022-09-24 10:29:06徐洋蔣玉茹梁矗黃丁韞趙凱楊超宇張明嘉

北京信息科技大學學報(自然科學版) 2022年4期

徐洋，蔣玉茹，梁矗，黃丁韞，趙凱，楊超宇，張明嘉

(北京信息科技大學智能信息處理實驗室，北京 100192)

1 引言

具有智能的機器正成為現(xiàn)代生活不可或缺的一部分，而如何使聊天機器人等智能機器具備共情能力則是當前研究中面臨的挑戰(zhàn)。構建供機器自動學習識別情感、表達情感的語料庫是基于有監(jiān)督機器學習方法的情感分析研究得以展開的前提。

目前學術界中對于情感的分類沒有統(tǒng)一的標準，不同的數(shù)據(jù)集都有著不同的情感/情緒分類標簽。其中非常著名的當屬1982年美國心理學家Ekman[1]提出的6大基本情緒：生氣、快樂、驚訝、厭惡、傷心和害怕。除了情緒表達以外，在對話中發(fā)言人所說話語的情感極性(積極、中立、消極)也是衡量情感的方式之一。

話語是人與人之間表達情感最普遍的方式。但僅僅從話語文本中難以準確識別出說話者的真實情感。將文本、語音、圖像3種模態(tài)蘊含的信息加以融合，能對其做出更準確的識別。Zadeh等[2]構建了CMU-MOSI語料庫，收集了YouTube上關于電影評論的視頻，標注了從-3到+3的7類情感傾向，但其數(shù)據(jù)集規(guī)模較小。2018年Zadeh等[3]又構建了CMU-MOSEI語料庫，從YouTube收集了長達約66 h的獨白視頻，標注了情感標簽和情緒標簽。Soujanya等[4]構建了MELD語料庫，數(shù)據(jù)來源于經典的電視劇《老友記》。Yu等[5]構建了CH-SIMS語料庫，包含2 281個經過精煉的中文視頻片段。徐琳宏等[6]構建了一個俄語多模態(tài)情感語料庫，將情感分為喜、怒、悲、恐和愧5大類別和15個小類，共標注了181個場景?？梢钥闯?，目前公開的面向中文的多模態(tài)情感分析語料庫資源不足。同時由于地域文化的差別，不同國家、不同母語的說話者的情感表達方式不盡相同，所以，將英文的多模態(tài)情感分析語料庫翻譯成中文，用于漢語母語說話者的情感分析也是不恰當?shù)?。因此，本文將構建一個面向中文劇集的多模態(tài)語料庫，制定情感/情緒標注方案，并開展多模態(tài)情感識別研究。

情感分析模型大致分為兩類，一類是基于傳統(tǒng)的情感詞典(lexicon-based)的方法，另一類是基于現(xiàn)代深度學習(deeplearning-based)的方法，前者主要依賴于情感詞典構造的完善程度，后者更多依賴于標注語料。Matsumoto等[7]使用傳統(tǒng)情感詞典的方法，將情感詞進行加權以達到優(yōu)化模型性能的目的。Herzig等[8]使用支持向量機(support vector machines,SVM)模型，結合對話的單輪和整體的特征，對對話信息進行情感分類。Poira等[9]提出了BC-LSTM模型，這是首個基于長短時記憶網絡的一種對話情感識別方法，它的關鍵在于對對話之間的時序關系進行建模，充分學習到對話上下文情感特征，不足之處是沒有用到對話中的發(fā)言人特征。CMN[10]很好地解決了這一不足，它提出了一種對話記憶網絡，將發(fā)言人信息與對話信息同時建模，顯著提升了對話情感識別的性能。DialogueRNN[11]增強了對話和發(fā)言人的建模方式，采用了3個門控循環(huán)單元分別對發(fā)言人、上下文和情感進行建模，并利用注意力機制更新不同范圍的上下文狀態(tài)，增強了對話中的情感表達。

以上都是基于序列建模的情感識別方法。由于對話具有天然的圖結構，DialogueGCN[12]基于圖的神經網絡構建了新的建模方式，用對話中的句子作為節(jié)點，以發(fā)言人和對話時序關系構建邊，取得了當時的最好結果。DAG-ERC[13]是一個有向無環(huán)圖神經網絡，與先前的圖結構相比，構建邊時僅考慮了過去的信息，而不是簡單地將每個話語與固定數(shù)量的周圍話語連接起來，有效地提升了模型的性能。

3 中文語料庫的構建

本文基于中文情景喜劇《天真派武林外傳》構建了一個中文語料庫。首先進行前期準備，制定待標注數(shù)據(jù)標準并對語料庫進行合理切分，接著制定標注模板，并按照客觀性、一致性和常識性的標注規(guī)范，多位標注人員遵循所制定好的標注流程進行標注，完成語料庫的構建。

3.1 前期準備

3.1.1 待標注數(shù)據(jù)標準

本文所用的原始數(shù)據(jù)來源于情景喜劇《天真派武林外傳》，為了便于標注人員進行標注，需要對原始數(shù)據(jù)進行轉換，使其轉換為易于提取相關信息的待標注數(shù)據(jù)。本文依照的待標注數(shù)據(jù)標準為：1)一致性原則，即在同一條待標注數(shù)據(jù)里只允許有一個說話者發(fā)言且中途情感不會發(fā)生任何變化；2)待標注數(shù)據(jù)若出現(xiàn)同一說話者發(fā)言過短或過長的情況，對其進行適當?shù)暮喜⒒蚍指睿?)音畫同源，即畫面上出現(xiàn)的人物必須包含說話者，否則過濾掉該數(shù)據(jù)。待標注數(shù)據(jù)一定要指向清晰、目標明確，這樣才便于標注人員進行標注，同時也有利于后續(xù)的人物性格特點分析。

3.1.2 數(shù)據(jù)預處理

從網絡上下載《天真派武林外傳》劇后，根據(jù)前文所述的數(shù)據(jù)處理標準，利用剪輯軟件對原始數(shù)據(jù)進行逐句剪輯。最后將剪輯完成的片段按照劇集次序分模塊導出，并標記為待標注數(shù)據(jù)交給標注人員。

3.2 標注規(guī)范

本文所設計的標注模板包括場景信息、發(fā)言人信息、話語文本、話語對應的語音和視頻片段、情感和情緒標簽。

一個劇集包含多個場景，將一個場景視作一個對話單元，其中包含多條話語。

發(fā)言人即臺詞文本對應的劇本角色，主要為佟湘玉、白展堂、郭芙蓉、呂秀才、李大嘴、邢捕頭、莫小貝這7位主角。其他配角所占比例較小。

話語文本表示待標注數(shù)據(jù)里當前發(fā)言人所敘述的內容對應的文本。情感和情緒信息是標注的重點，其中情感信息是發(fā)言人的內在情感表達，分為積極、消極和中性3類；情緒信息是發(fā)言人呈現(xiàn)出來的外在情緒表達，參照Ekman提出的6大基本情緒類型加上中立情緒共7類進行標注。

標注過程中每個標注人員可同時看到一條已經切分好的數(shù)據(jù)的文字、聲音和視頻信息，同時標注該條數(shù)據(jù)的情感標簽和情緒標簽。

3.3 標注流程及質量監(jiān)控

經過預處理的數(shù)據(jù)，按照標注模板進行組織之后，按照集編號進行分組。標注同一組數(shù)據(jù)的兩名標注人員在標注期間不能互相討論，必須獨立完成標注。標注后，將結果交給第三人進行一致性統(tǒng)計計算和校驗。如果二人標注不一樣，交由第三人進行裁決。標注流程如圖1所示。

圖1 多人協(xié)作標注流程

為了能夠更方便地進行管理，數(shù)據(jù)被分為待標注、待審查、沖突、已審查4個類別。通過對不同組的狀態(tài)進行監(jiān)控，可以清晰地了解每組的標注進程，以便對語料庫標注的總體完成情況進行調度。數(shù)據(jù)在各個狀態(tài)之間的轉換如圖2所示。

圖2 數(shù)據(jù)標注狀態(tài)遷移情況

由于情感和情緒標注屬于主觀性較強的標注任務，本文沿用此類語料庫的評價方法，采用Kappa系數(shù)[14]計算背對背標注的一致性。本文統(tǒng)計了兩名標注人員對情感和情緒標注的一致性情況。二人情感標注的一致性為0.504，情緒標注的一致性為0.484。該指標略優(yōu)于現(xiàn)有的英文多模態(tài)語料庫標注的一致性。

3.4 語料庫數(shù)據(jù)統(tǒng)計

語料庫中的部分數(shù)據(jù)如表1所示。

表1 語料庫中的典型數(shù)據(jù)示例

這是客棧掌柜被威脅時發(fā)生的對話，掌柜既不得不滿足侯三無理的要求，同時又只能強裝出高興的表情，但實際上內心氣憤不已，是一種消極的情感。這部分內容側面印證了講話者表現(xiàn)出來的情緒和其內心的真實情感有時會出現(xiàn)巨大差異，甚至可能完全相反。這在一定程度體現(xiàn)了本文所提出語料庫的特點。

語料庫及其中對話的相關信息統(tǒng)計如表2、表3所示。由表可知，語料庫總體規(guī)模達到5 541條語句，330個場景，25個角色。其中平均每輪對話包含16～17個句子和3～4個發(fā)言人，平均每句話長度為10～11個字，比較符合日常對話特點。

表2 語料庫信息統(tǒng)計

表3 對話信息統(tǒng)計

每種情感類型和每種情緒類型所占的比例如圖3、圖4所示。從圖3可以看出，中性和消極是占比最大的兩種情感，分別占比39.57%和38.84%。從圖4可以看出，中性和開心是出現(xiàn)頻率最高的兩種情緒，分別占到了整體的34.50%和19.19%。

圖3 情感占比分布

圖4 情緒占比分布

7位主要發(fā)言人的情感和情緒分布情況如圖5、圖6所示，可以看出不同發(fā)言人的情感和情緒占比情況不同，這說明在對話中，不同發(fā)言人的性格特征也是影響話語情感或情緒的關鍵因素。同時也可以看出，不同角色的發(fā)言數(shù)量差異較大。經統(tǒng)計，佟湘玉、郭芙蓉和白展堂的發(fā)言頻率最高，分別占到了22.78%、18.03%和16.96%，這與情景喜劇中的角色地位相符合，主角發(fā)言較為頻繁。

圖5 發(fā)言人情感分布

圖6 發(fā)言人情緒分布

4 情感分析模型

在權衡比較了現(xiàn)有多模態(tài)情感分析工作之后，選擇先進的特征抽取方法和多模態(tài)對話情感分析模型，設計了一個情感分析模型，整體架構如圖7所示，分兩個階段：第一階段搭建單模態(tài)情感特征抽取模塊，用于抽取話語級的情感特征；第二階段搭建多模態(tài)情感分析模型，用于抽取多模態(tài)的話語表示和對話表示，最后經過對話情感分類器獲得話語情感標簽。

圖7 情感分析模型整體架構

4.1 話語級特征抽取

4.1.1 文本特征抽取

采用預訓練語言模型基于transformer的雙向編碼器表示(bidirectional encoder representations from transformers，BERT)進行文本特征提取。話語級數(shù)據(jù)經過BERT進行深度編碼后，取[CLS]位置的向量視為話語級別的特征表示，最后使用全連接的方式對文本特征進行降維，獲得300維的文本情感特征向量。

4.1.2 音頻特征抽取

采用Opensmile自動化工具進行語音特征提取。首先抽取出384維的話語級語音情感特征，其中包括韻律特征、頻譜特征等，隨后使用標準歸一化(Z-Score)方法對音頻特征進行歸一化。并使用全連接的方式對音頻特征進行降維，獲得300維的語音情感特征向量。

4.1.3 視頻特征抽取

采用人臉識別卷積神經網絡FaceCNN結合雙向長短時記憶(bi-directional long short-term memory，BiLSTM)模型對視頻情感特征進行提取。首先對話語級視頻進行等幀切分，然后抽取每一幀圖片中的人臉部分。利用FaceCNN結合多層卷積和池化的模塊抽取單個人臉圖片中蘊含的情感特征之后，利用BiLSTM對每段視頻中的多張人臉圖片進行時序編碼，獲取視頻中蘊含的情感特征，最后使用全連接的方式進行降維，獲得300維的視頻情感特征向量。

4.2 對話情感編碼器

經過話語級特征抽取編碼器抽取后，得到單個話語的不同模態(tài)的情感特征。將不同模態(tài)的特征向量進行拼接得到當前話語的多模態(tài)特征向量，然后輸入對話情感編碼器。

對話情感編碼器采用DialogueRNN。在當前處理多方對話情感識別模型中，DialogueRNN模型是性能出眾的模型之一。該模型綜合考慮了發(fā)言人、對話上下文和情感3方面因素。采用3個門控循環(huán)單元(gate recurrent unit，GRU)分別對這3個因素進行建模，并通過注意力機制來建模話語上下文的權重分布，最終獲得了較好的融合了上下文特征的話語情感特征表示。

4.3 對話情感分類器

對話情感分類器層采用全連接層+Softmax的方式構建，將對話情感編碼器的輸出結果直接作為輸入，最終得到當前話語的情感分布進而預測出當前話語的情感標簽。

5 實驗結果分析

采用上述模型，利用本文所構建語料庫開展實驗，結果使用F1值進行評估。不同模態(tài)數(shù)據(jù)作為模型輸入的情況下，單一情感類別的識別結果和所有情感類別的綜合識別結果F1值如表4所示。

表4 實驗結果 %

從綜合識別結果上看：1)依據(jù)文本、音頻、視頻單一模態(tài)數(shù)據(jù)進行情感識別的F1值，文本模態(tài)>音頻模態(tài)>視頻模態(tài)；2)在雙模態(tài)組合實驗中，“文本+音頻”模態(tài)>“文本+視頻”模態(tài)>“音頻+視頻”模態(tài)；3)“文本+音頻+視頻”的綜合識別結果F1值為50.83%，說明就本文所構建模型而言，文本模態(tài)對情感識別結果起到了關鍵作用，音頻和視頻的特征沒有起到輔助作用。

從雙模態(tài)融合的實驗結果上看，當音頻和文本融合時，對消極情感的識別起到了積極作用；視頻和文本融合時，對積極情感的識別起到了正向作用；視頻和音頻融合時，對中立和消極情感起到了正向作用。而當文本、音頻和視頻三模態(tài)融合時，對中立情感識別起到了正向作用。本文所設計模型主體是DialogueRNN模型，其在英文數(shù)據(jù)集上的F1值達到62.75%，比本文結果高了接近10個百分點。這反映出下一步面向中文多模態(tài)多方對話情感分析語料庫進行情感分析研究的必要性。具體而言，語音和視頻兩個模態(tài)在和文本模態(tài)配合進行情感分析時，僅在特定情感類別中提高了識別性能，這說明模型中的音頻和視頻情感特征抽取方法還不能滿足中文多模態(tài)情感分析的需求。進一步，3個模態(tài)的信息如何進行交互和有效地互相支撐，也是后續(xù)構建模型中需要重點研究的內容。

6 結束語

本文構建了基于電視劇《天真派武林外傳》的中文語料庫，其中包含330段對話與5 541條語句。每條語句都標注了發(fā)言人、發(fā)言人的內在情感、外在情緒。該語料庫可用于面向中文多方對話的多模態(tài)情感/情緒識別任務，以及中文對話發(fā)言人特征對情感分析影響的相關研究，推動共情對話技術的發(fā)展。同時，構建了一個情感分析模型，利用所構建的語料庫進行了實驗，實驗結果表明:單模態(tài)情感分析的效果中，文本模態(tài)好于聲音模態(tài)和視頻模態(tài)；多模態(tài)情感分析的綜合效果比單模態(tài)文本分析的效果差，但好于聲音和視頻分析的效果。