亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向情感變化檢測(cè)的語(yǔ)音情感數(shù)據(jù)庫(kù)

2021-11-17 12:39:14張會(huì)云黃鶴鳴

計(jì)算機(jī)仿真 2021年9期

張會(huì)云，黃鶴鳴*，李偉

(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院，青海西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室青海西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008)

1 引言

隨著語(yǔ)音識(shí)別技術(shù)的迅速發(fā)展，以計(jì)算機(jī)、手機(jī)、平板等為載體的人工智能研究日新月異。各種人機(jī)交互不再局限于識(shí)別特定說(shuō)話人語(yǔ)音中的單一音素或語(yǔ)句，如何識(shí)別語(yǔ)音中的情感已成為ASR領(lǐng)域的新興研究方向。語(yǔ)音不僅包含說(shuō)話人所要表達(dá)的語(yǔ)義信息，也包含說(shuō)話人蘊(yùn)含的情感狀態(tài)，對(duì)語(yǔ)音情感的有效識(shí)別能夠提升語(yǔ)音可懂度，使各種智能設(shè)備最大限度理解用戶意圖，達(dá)到人性化水平，從而更好地為人類(lèi)服務(wù)。

語(yǔ)音情感識(shí)別(Speech Emotion Recognition， SER)指利用計(jì)算機(jī)分析情感，提取出情感特征值，并用這些參數(shù)進(jìn)行相應(yīng)建模和識(shí)別，建立特征值與情感的映射關(guān)系，最終對(duì)情感進(jìn)行分類(lèi)。語(yǔ)音情感數(shù)據(jù)庫(kù)是進(jìn)行SER研究的基礎(chǔ)。優(yōu)質(zhì)的語(yǔ)音情感數(shù)據(jù)庫(kù)對(duì)SER系統(tǒng)性能的提升具有重要作用，所謂優(yōu)質(zhì)是指數(shù)據(jù)庫(kù)中的每條語(yǔ)句都能真實(shí)確切地表達(dá)出說(shuō)話人的情感狀態(tài)。因此，多樣化、大規(guī)模、高質(zhì)量的語(yǔ)音情感數(shù)據(jù)庫(kù)是保證SER順利進(jìn)行的第一步。

2 相關(guān)工作

SER系統(tǒng)包括語(yǔ)音情感數(shù)據(jù)的獲取和預(yù)處理、語(yǔ)音情感特征提取與選擇、聲學(xué)模型訓(xùn)練以及分類(lèi)決策4個(gè)階段[1]。語(yǔ)音情感數(shù)據(jù)庫(kù)相關(guān)內(nèi)容第3部分會(huì)詳細(xì)介紹，下面著重介紹語(yǔ)音情感特征提取與分類(lèi)算法。

特征提取：SER是一項(xiàng)有挑戰(zhàn)性的任務(wù)，對(duì)情感的識(shí)別依賴于語(yǔ)音情感特征分類(lèi)的有效性。語(yǔ)音情感特征可分為語(yǔ)言特征和聲學(xué)特征[2，3]。語(yǔ)言特征即語(yǔ)音所要表達(dá)的言語(yǔ)信息，聲學(xué)特征則包含了說(shuō)話人語(yǔ)氣、語(yǔ)調(diào)，蘊(yùn)含感情色彩。提取關(guān)聯(lián)度高的聲學(xué)特征有助于確定說(shuō)話人情感狀態(tài)。通常以幀為單位提取聲學(xué)特征，并以全局統(tǒng)計(jì)方式作為模型輸入?yún)⑴c情感識(shí)別[3]。全局統(tǒng)計(jì)指聽(tīng)覺(jué)上獨(dú)立的語(yǔ)句或單詞，如極值、方差、均值、最小值、最大值、峰度等。常用的聲學(xué)特征包括韻律特征[4]、譜特征[5]和音質(zhì)特征[6]。為了進(jìn)一步提升識(shí)別性能，研究者也將基于人耳聽(tīng)覺(jué)特性的特征[7]、非線性動(dòng)力特征[8]引入SER，見(jiàn)表1。

表1 基于語(yǔ)音情感的聲學(xué)特征分類(lèi)

表1給出了語(yǔ)音情感特征分類(lèi)及其所包含的成分。通常來(lái)說(shuō)，單一特征不能完全包含語(yǔ)音情感的所有有用信息，為了使SER系統(tǒng)性能達(dá)到最優(yōu)，研究者通常將不同特征融合來(lái)提高系統(tǒng)性能。

分類(lèi)算法：要對(duì)情感狀態(tài)進(jìn)行判斷，首先要建立SER模型。識(shí)別模型是SER系統(tǒng)的核心。在識(shí)別過(guò)程中，情感特征輸入到識(shí)別網(wǎng)絡(luò)，計(jì)算機(jī)通過(guò)相應(yīng)算法獲取識(shí)別結(jié)果。常用SER分類(lèi)方法有：極限學(xué)習(xí)機(jī)(Extreme Learning Machine， ELM)[9]、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping， DTW)[10]、高斯混合模型(Gaussian Mixture Model， GMM)[11]、支持向量機(jī)(Support Vertor Machine， SVM)[12，13]、隱馬爾科夫模型(Hidden Markor Model， HMM)[14]及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network， ANN)[15]等。

3 語(yǔ)音情感數(shù)據(jù)庫(kù)

人的情感是通過(guò)面部表情、身體姿態(tài)、聲音及生理信號(hào)等多種模態(tài)表現(xiàn)出來(lái)的[16]。情感判斷可基于這些模態(tài)中的一個(gè)或多個(gè)進(jìn)行，但單模態(tài)信息不全面、易受干擾，而多模態(tài)信息能夠互相印證、互相補(bǔ)充，從而為情感判斷提供更全面、準(zhǔn)確的信息，最終提高情感識(shí)別性能。隨著SER的發(fā)展，各種單模態(tài)、多模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)應(yīng)用而生，根據(jù)語(yǔ)音屬性將數(shù)據(jù)庫(kù)歸類(lèi)，見(jiàn)表2。

表2根據(jù)語(yǔ)種差異、語(yǔ)音自然度、情感獲取方式及情感描述模型將語(yǔ)音情感數(shù)據(jù)庫(kù)歸類(lèi)，通常研究者立足于情感描述模型，即將情感劃分為離散型情感和維度型情感進(jìn)行研究。為了更直觀地區(qū)分兩類(lèi)情感，表3進(jìn)行了詳細(xì)總結(jié)。

表2 語(yǔ)音情感數(shù)據(jù)庫(kù)歸類(lèi)

表3 兩種情感描述模型的區(qū)別

由表3可知，離散型情感[17，18]指使用形容詞標(biāo)簽將不同情感表示為相對(duì)獨(dú)立的情感類(lèi)別，多屬于表演型或引導(dǎo)型，每類(lèi)情感演繹逼真，能達(dá)到單一、易辨識(shí)的程度。維度型情感[18，19]通過(guò)喚醒維(Arousal)、效價(jià)維(Valence)、支配維(Dominance)等取值連續(xù)的維度將情感描述為一個(gè)多維信號(hào)，要求標(biāo)注者將主觀情感直接量化為客觀實(shí)數(shù)值，如圖1所示。其中，Arousal是對(duì)人生理活動(dòng)/心理警覺(jué)水平的度量；效價(jià)維度量人的愉悅程度，情感從極度苦惱到極度開(kāi)心互相轉(zhuǎn)化；支配維指影響周?chē)h(huán)境或反過(guò)來(lái)受其影響的一種感受。為了更完整地描述情感，研究者也將期望維(Expectation)、強(qiáng)度維(Intensity)加入維度描述模型[16，20]。期望維是對(duì)說(shuō)話人情感出現(xiàn)的突然性度量，即說(shuō)話人缺乏預(yù)料和準(zhǔn)備程度的度量；強(qiáng)度維指說(shuō)話人偏離冷靜的程度[18]。

圖1 愉悅-喚醒模型[8]

近年來(lái)，隨著SER研究的順利開(kāi)展，研究者根據(jù)情感描述模型錄制了相應(yīng)的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表4)和維度型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表5)，所列的各類(lèi)情感數(shù)據(jù)庫(kù)大都公開(kāi)或可以通過(guò)許可證授權(quán)得到。

由表4可見(jiàn)，大部分?jǐn)?shù)據(jù)庫(kù)都是通過(guò)表演方式采集。事實(shí)上采用自發(fā)語(yǔ)音情感更合理，但使用表演型情感數(shù)據(jù)庫(kù)也有一定好處，可避免數(shù)據(jù)庫(kù)包含過(guò)多無(wú)效標(biāo)簽數(shù)據(jù)。由表5可知，常用的維度型情感語(yǔ)料庫(kù)主要有：VAM、DEAP、RECOLA、SEMAINE、IEMOCAP及CreativeIT，對(duì)于維度型情感庫(kù)通常采用PAD量表進(jìn)行情感信息標(biāo)注。

表4 常用的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)

表5 常用的維度型語(yǔ)音情感數(shù)據(jù)庫(kù)

3.1 單模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)

1)Belfast英語(yǔ)情感數(shù)據(jù)庫(kù)

Belfast數(shù)據(jù)庫(kù)[21，22]由Queen大學(xué)錄制，包含40位說(shuō)話人使用5類(lèi)情感(生氣/anger、悲傷/sadness、高興/happiness、恐懼/fear和中性/neutral)演繹5個(gè)段落得到的語(yǔ)音。

2)EMO-DB德語(yǔ)情感數(shù)據(jù)庫(kù)

EMO-DB數(shù)據(jù)庫(kù)[23]是由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制的，采樣率為48kHz，壓縮后16kHz，16bit量化。錄制時(shí)從40個(gè)說(shuō)話人中選取10位對(duì)10個(gè)德語(yǔ)語(yǔ)句進(jìn)行情感演繹，包含中性/neutral、生氣/anger、恐懼/fear、高興/joy、悲傷/sadness、厭惡/disgust和困倦/boredom等7種情感，共800句語(yǔ)料，考慮到說(shuō)話人語(yǔ)音自然度，最終選取535個(gè)樣本，對(duì)應(yīng)樣本數(shù)量分別為79、127、69、71、62、46、81。部分文獻(xiàn)中，研究者從535條語(yǔ)句中選出了494條，用于SER[24]。

3)AIBO自然語(yǔ)音情感數(shù)據(jù)庫(kù)

AIBO數(shù)據(jù)庫(kù)[25]包含了英語(yǔ)和德語(yǔ)兩類(lèi)語(yǔ)音。德語(yǔ)數(shù)據(jù)庫(kù)[26]是由“MONT”、“OHM”兩所學(xué)校錄制的，對(duì)應(yīng)樣本數(shù)為：8258、9959。該庫(kù)通過(guò)無(wú)線耳麥采集了51名(MONT 25，OHM 26)10-13歲的兒童與索尼公司電子寵物狗Aibo進(jìn)行游戲交互時(shí)的語(yǔ)音，采樣率為48kHz，壓縮后16kHz，16bit量化。每條語(yǔ)音都有明顯的情感傾向，共48401個(gè)單詞，時(shí)長(zhǎng)9.2h，數(shù)據(jù)庫(kù)總樣本18216條，由5位語(yǔ)言學(xué)專業(yè)學(xué)生通過(guò)投票方式標(biāo)注情感，當(dāng)3個(gè)及以上的標(biāo)注者判定為同一種情感時(shí)投票通過(guò)。該庫(kù)涵蓋高興/joyful、強(qiáng)調(diào)/emphatic、中性/neutral、溺愛(ài)/motherese、無(wú)聊/bored、驚訝/surprised、無(wú)助/helpless、易怒/touchy、憤怒/angry、譴責(zé)/reprimanding和含糊/rest等11類(lèi)情感。目前關(guān)于情感標(biāo)簽仍無(wú)定論，最常用的標(biāo)簽方法有2種：5類(lèi)情感，2類(lèi)情感。5類(lèi)情感包括：Anger(記作A，包含angry， touchy， reprimanding)、Emphatic(記作E)、Neutral(記作N)、Positive(記作P，包含motherese， joyful)、Rest(記作R)，對(duì)應(yīng)樣本數(shù)分別為1492、3601、10967、889、1267；對(duì)于2類(lèi)問(wèn)題，類(lèi)別為Negative(記作NEG，包含angry， touchy， reprimanding， emphatic)和Idle(記作IDL)，樣本數(shù)分別為5823和12393。該庫(kù)33%的單詞被INTERSPEECH 2009進(jìn)行SER競(jìng)賽所用[27]。

英文庫(kù)由30個(gè)兒童(4～14歲)錄制而成，語(yǔ)音總共8.5個(gè)小時(shí)。

4)CASIA中文語(yǔ)音情感數(shù)據(jù)庫(kù)

CASIA數(shù)據(jù)庫(kù)[28]是由中科院自動(dòng)化研究所在干凈環(huán)境下錄制的，包含4位專業(yè)發(fā)音人在6類(lèi)情感(高興/happiness、害怕/fear、悲哀/sadness、生氣/anger、驚嚇/scare和中性/neural)下演繹的9600條情感語(yǔ)音。采樣率為16kHz，16bit量化。目前公開(kāi)的CASIA庫(kù)中，包含1200條語(yǔ)音，每類(lèi)情感各200條語(yǔ)音。

5)丹麥DES情感語(yǔ)料庫(kù)

DES數(shù)據(jù)庫(kù)[29]包含兩個(gè)單詞(是，否)，9句話和2個(gè)短句。情感類(lèi)型有：高興/happiness、傷心/sadness、中性/neutral、生氣/anger和驚奇/surprise。通過(guò)20個(gè)年齡在18～58歲的本地人鑒定，識(shí)別率可達(dá)67%。

6)老人語(yǔ)音情感庫(kù)EESDB

EESDB數(shù)據(jù)庫(kù)[30]語(yǔ)音數(shù)據(jù)來(lái)自《老人的故事》。該庫(kù)錄制了11位說(shuō)話人(6男5女)演繹的7類(lèi)情感(高興/happy、傷心/sad、中性/neutral、生氣/angry、害怕/fear、驚奇/surprise、厭惡/digust)，共992條語(yǔ)音，采樣率44kHz，16bit量化。選取8位評(píng)估者對(duì)語(yǔ)音情感進(jìn)行判定，若75%的評(píng)估者同時(shí)判定為相同情感則對(duì)其保留，最終保留了427條情感語(yǔ)音。

7)北京航空航天大學(xué)情感語(yǔ)料庫(kù)

北京航空航天大學(xué)情感語(yǔ)料庫(kù)是一個(gè)中文數(shù)據(jù)庫(kù)[31]，錄制了7位說(shuō)話人(4男3女)在20個(gè)文本下演繹的5類(lèi)情感(憤怒/anger、高興/happiness、悲傷/sadness、厭惡/disgust、驚訝/surprise)，每個(gè)文本在相同情感下重復(fù)3次，經(jīng)評(píng)估后，最終保留1140條情感語(yǔ)音。

8)Semaine數(shù)據(jù)庫(kù)

Semaine[32]是一個(gè)面向AI與人機(jī)交互的數(shù)據(jù)庫(kù)，可免費(fèi)用于科學(xué)研究。該庫(kù)是在專業(yè)錄音室環(huán)境下進(jìn)行人機(jī)交互錄制的，錄制時(shí)，20位說(shuō)話人被要求與4位個(gè)性不同的(溫和而智慧的/Prudence、快樂(lè)而外向的/Poppy、悲傷而抑郁的/Obadiah和怒氣沖沖的/Spike)虛擬人物(由工作人員扮演)進(jìn)行語(yǔ)音對(duì)話，該虛擬人物不僅能理解說(shuō)話人表達(dá)的語(yǔ)義信息，與用戶也有情感交流，錄音長(zhǎng)達(dá)7小時(shí)。由5個(gè)高幀頻、高分辨率攝像機(jī)和4個(gè)麥克風(fēng)共同釆集數(shù)據(jù)，采樣率為48kHz，24bit量化。最后，在valence、activation、power、intensity和expectation等5個(gè)維度上進(jìn)行標(biāo)注。

9)TYUT2.0中文情感語(yǔ)音數(shù)據(jù)庫(kù)

TYUT2.0數(shù)據(jù)庫(kù)[33]是通過(guò)截取廣播劇的方式獲得的一種摘引型情感數(shù)據(jù)庫(kù)，使用PAD(Pleasure-Arousal-Domaniance)情感量表對(duì)語(yǔ)音情感進(jìn)行維度標(biāo)注。在標(biāo)注試驗(yàn)中，招募100名在校學(xué)生(44男56女)對(duì)3類(lèi)情感(高興/pleasure、悲傷/sadness、憤怒/anger)共161個(gè)語(yǔ)音樣本按照范圍為1～5的PAD量表進(jìn)行維度標(biāo)注，得到161×100維的數(shù)據(jù)樣本，每個(gè)語(yǔ)音樣本維度值取所有標(biāo)注值的平均。

10)SUSAS英語(yǔ)情感數(shù)據(jù)庫(kù)

SUSAS數(shù)據(jù)庫(kù)[34，35]錄制了7位說(shuō)話人(4男3女)的3593條情感語(yǔ)音，主要用于分析壓力級(jí)別，壓力類(lèi)別包括高壓/high stress(hist)、中壓/medium stress(meds)、中性/neutral(neut)、強(qiáng)壓/screaming(scre)，對(duì)應(yīng)類(lèi)別樣本數(shù)分別為1202、1276、701和414。在Arousal維上neut為正，其它為負(fù)；在Valence上neut、scre為正，其它為負(fù)。

3.2 多模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)

1)IEMOCAP英語(yǔ)情感數(shù)據(jù)庫(kù)

IEMOCAP數(shù)據(jù)庫(kù)[36]是由美國(guó)南加州大學(xué)錄制的，由10名演員(5男5女)在有劇本或即興場(chǎng)景下誘發(fā)特定情感，包含音頻、文本、面部表情以及視頻。整個(gè)數(shù)據(jù)集劃分為5部分，每部分均由1男1女表演組成。離散型和維度型情感標(biāo)注都被應(yīng)用于該數(shù)據(jù)庫(kù)。離散型情感標(biāo)簽分為中性/neural、高興/happiness、生氣/anger和悲傷/sadness等，每類(lèi)對(duì)應(yīng)樣本數(shù)量為：1708、1636、1103和1084，總計(jì)5531句(其中即興表演包含2280句)，時(shí)長(zhǎng)約12小時(shí)。此外，IEMOCAP數(shù)據(jù)庫(kù)也采用了valence、activation和dominance維度空間模型進(jìn)行標(biāo)注，維度幅值范圍為[1， 5]。

2)RECOLA數(shù)據(jù)庫(kù)

RECOLA數(shù)據(jù)庫(kù)[37]錄制了46位說(shuō)話人(兩人1組被分成23組，每組通過(guò)遠(yuǎn)程視頻會(huì)議討論某個(gè)災(zāi)難場(chǎng)景下逃生方案)的語(yǔ)音情感數(shù)據(jù)。數(shù)據(jù)中包含所有說(shuō)話人在討論過(guò)程中的面部視頻和音頻以及其中35個(gè)說(shuō)話人的ECG、EDA數(shù)據(jù)。標(biāo)注人員按照視頻幀率逐幀給出了說(shuō)話人前5分鐘討論過(guò)程中情感狀態(tài)在valence和Arousal的值。

3)eNTERFACE’05英語(yǔ)情感數(shù)據(jù)庫(kù)

eNTERFACE’05數(shù)據(jù)庫(kù)[38]是基于面部表情和語(yǔ)音的雙模態(tài)情感數(shù)據(jù)庫(kù)，錄制條件為辦公室環(huán)境，帶有一定回聲，錄制文本來(lái)自于故事，所有錄制人員通過(guò)聽(tīng)取6個(gè)短片小故事，得到一種情感，通過(guò)兩名專家最終確定語(yǔ)音是否符合要求。數(shù)據(jù)庫(kù)采集了來(lái)自14個(gè)國(guó)家42位說(shuō)話人(34男8女)的6類(lèi)基本情感(生氣/anger、厭惡/disgust、害怕/fear、開(kāi)心/happy、傷心/sadness、驚訝/surprise)，每類(lèi)情感對(duì)應(yīng)樣本數(shù)量為：200、189、187、205、195和190。樣本采用分辨率為80萬(wàn)像素的微型DV數(shù)字?jǐn)z像機(jī)以25幀/秒的速度攝制，利用專用的高質(zhì)量麥克風(fēng)以16bit格式記錄48kHz的未壓縮立體音頻信號(hào)，每個(gè)圖片幀大小為720*576。

4)RML數(shù)據(jù)庫(kù)

RML數(shù)據(jù)庫(kù)[39]是基于面部表情和語(yǔ)音的雙模態(tài)公開(kāi)情感數(shù)據(jù)庫(kù)，由加拿大Ryerson多媒體實(shí)驗(yàn)室錄制，錄制環(huán)境較為明亮，無(wú)嘈雜的背景音。采樣率為44kHz，16bit量化。視頻樣本包含8位說(shuō)話人表達(dá)的6類(lèi)基本情感(生氣/anger、厭惡/disgust、害怕/fear、開(kāi)心/happy、傷心/sadness、驚訝/surprise)，共720個(gè)語(yǔ)音和人臉情感。視頻幀率為30幀/s，尺寸為720*480。每個(gè)視頻持續(xù)時(shí)間為3～6s。

5)AFEW6.0數(shù)據(jù)庫(kù)

AFEW6.0[40]并非是在實(shí)驗(yàn)室環(huán)境下建立的傳統(tǒng)數(shù)據(jù)庫(kù)，它是Emotion Recognition in the Wild(EmotiW)2016 challenge比賽提供的官方數(shù)據(jù)庫(kù)，庫(kù)中所有樣本均為電影或電視劇剪輯片段且混有復(fù)雜的背景信息。該庫(kù)中的視頻樣本包含7類(lèi)情感，被劃分為訓(xùn)練集(773個(gè))、驗(yàn)證集(383個(gè))和測(cè)試集(593個(gè))，訓(xùn)練集和驗(yàn)證集公開(kāi)，測(cè)試集用于比賽評(píng)定，非公開(kāi)。

6)GEMEP數(shù)據(jù)庫(kù)

GEMEP數(shù)據(jù)庫(kù)[41]包含語(yǔ)音樣本集及其對(duì)應(yīng)的視頻樣本集GEMEP-FERA[42]，應(yīng)用于INTERSPEECH 2013 Challenge[43]。數(shù)據(jù)庫(kù)包含10位說(shuō)話人(5男5女)的1260個(gè)樣本，共18個(gè)情感類(lèi)別(羨慕/admiration、愉悅/amusement、焦慮/anxiety、冷漠/cold anger、蔑視/contempt、絕望/despair、厭惡/disgust、興高采烈/elation、暴怒/hot anger、興趣/interest、恐慌/panic、恐懼/fear、樂(lè)意/easure、驕傲/pride、寬慰/relief、悲傷/sadness、羞愧/shame、驚訝/surprise、溫柔/tenderness)。常用的情感有12類(lèi)，平均每類(lèi)約90個(gè)樣本，共1080個(gè)樣本。

7)ABC德語(yǔ)情感數(shù)據(jù)庫(kù)

ABC雙模態(tài)數(shù)據(jù)庫(kù)[44]模擬了不同情境下公共交通中說(shuō)話人的情感，是一個(gè)誘發(fā)數(shù)據(jù)庫(kù)，含8位說(shuō)話人(4男4女，25～48歲)的430條視頻情感語(yǔ)音，時(shí)長(zhǎng)11.5個(gè)小時(shí)，由3名專家對(duì)數(shù)據(jù)進(jìn)行剪切，標(biāo)定情感。其情感類(lèi)別為：挑釁/aggressive、愉快/cheerful、陶醉/intoxicated、緊張/nervous、中性/neutral、疲倦/tired)，對(duì)應(yīng)樣本數(shù)為95、105、33、93、79、25。

8)ACCorpus系列中文情感數(shù)據(jù)庫(kù)

ACCorpus數(shù)據(jù)庫(kù)[18]是由清華大學(xué)和中科院心理研究所合作錄制，錄音人數(shù)較多，是一個(gè)很全面、很系統(tǒng)、有代表性的數(shù)據(jù)庫(kù)，采樣率16kHz，16bit量化。包含5個(gè)子庫(kù)，分別是：ACCorpus_MM多模態(tài)、多通道情感數(shù)據(jù)庫(kù)、ACCorpus_SA漢語(yǔ)普通話情感分析數(shù)據(jù)庫(kù)、ACCorpus_FV人臉表情視頻數(shù)據(jù)庫(kù)、ACCorpus_FI人臉表情圖像數(shù)據(jù)庫(kù)、ACCorpus_SR情感語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。其中，ACCorpus_SR庫(kù)錄制了50位(25男25女)說(shuō)話人在5類(lèi)情感狀態(tài)(中性/neural、高興/happiness、生氣/anger、恐懼/fear和悲傷/sadness)下的語(yǔ)音。

9)AVEC 2012數(shù)據(jù)庫(kù)

AVEC 2012[45]是包含語(yǔ)音和視頻的多模態(tài)情感數(shù)據(jù)庫(kù)，來(lái)源于Semaine數(shù)據(jù)庫(kù)中Solid-SAL的24條情感記錄文件。曾用于2012年音/視頻情感識(shí)別挑戰(zhàn)大賽，被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)時(shí)長(zhǎng)在7小時(shí)左右，標(biāo)注工作由3～8個(gè)評(píng)估者借助標(biāo)注工具FEELTRACE在Valence、Activation、Power和Expectation四個(gè)情感維度上標(biāo)注。

10)VAM德語(yǔ)情感數(shù)據(jù)庫(kù)

VAM數(shù)據(jù)庫(kù)[46]是對(duì)德語(yǔ)電視談話節(jié)目“Vera am Mittag”進(jìn)行現(xiàn)場(chǎng)錄制而成的，包括表情庫(kù)、視頻庫(kù)、語(yǔ)音庫(kù)3部分。語(yǔ)音庫(kù)包含47位嘉賓947句語(yǔ)音，采樣率為16kHz，16bit量化。在valence、activation和dominance維度上標(biāo)注，標(biāo)注值在[-1， 1]。

11)AVIC英語(yǔ)情感數(shù)據(jù)庫(kù)

AVIC數(shù)據(jù)庫(kù)[47]是一種雙模態(tài)情感庫(kù)，錄制了21位(男11女10)產(chǎn)品推銷(xiāo)員使用英語(yǔ)進(jìn)行商業(yè)推廣的語(yǔ)音和面部表情。樣本情感類(lèi)別為：無(wú)聊/boredom、中性/neutral、高興/joyful，每類(lèi)情感對(duì)應(yīng)樣本數(shù)量為553、2279、170，共3002個(gè)樣本。

12)MOUD西班牙語(yǔ)情感數(shù)據(jù)庫(kù)

MOUD模態(tài)數(shù)據(jù)庫(kù)[48]采集了80位說(shuō)話人(65男15女)的文本、語(yǔ)音和視頻信息，共498個(gè)樣本。其中樣本情感標(biāo)注分為3類(lèi)：積極/positive、中立/neutral和消極/negative，每類(lèi)樣本對(duì)應(yīng)數(shù)量為：182、85、231。

13)MOSI英語(yǔ)數(shù)據(jù)庫(kù)

MOSI是2016年Zadeh團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的較大的一個(gè)多模態(tài)情感數(shù)據(jù)庫(kù)[49]，共采集了89位說(shuō)話人(48男41女)的文本、語(yǔ)音和視頻3個(gè)模態(tài)的信息，共2199個(gè)樣本，說(shuō)話人年齡主要集中在20～30歲。

14)SAVEE語(yǔ)音情感數(shù)據(jù)庫(kù)

SAVEE模態(tài)數(shù)據(jù)庫(kù)[50]是由4名演員在7種情感狀態(tài)(生氣/anger、厭惡/disgust、害怕/fear、高興/happiness、中性/neutral、傷心/sadness以及驚訝/surprise)下演繹得到的表演型數(shù)據(jù)庫(kù)，共480條情感，語(yǔ)音情感數(shù)量分布相對(duì)平衡，除中性(120條)外，其余6類(lèi)情感均有60條。

15)CHEVAD中文自然情感數(shù)據(jù)庫(kù)

CHEVAD數(shù)據(jù)庫(kù)[51]是由中科院自動(dòng)化研究所錄制的，也是中科院自動(dòng)化所舉辦的2017多模態(tài)情感識(shí)別競(jìng)賽的官方數(shù)據(jù)集，數(shù)據(jù)來(lái)自中文電影、電視劇及脫口秀節(jié)目，時(shí)長(zhǎng)140分鐘，說(shuō)話人數(shù)達(dá)到238人，年齡范圍從兒童到老人。由4名中國(guó)人標(biāo)注數(shù)據(jù)，總共26個(gè)非原型情感狀態(tài)，包含了常用的6類(lèi)情感狀態(tài)(憤怒/anger、恐懼/fear、高興/happy、中性/neutral、悲傷/sad和驚訝/surprise)，訓(xùn)練集、驗(yàn)證集和測(cè)試集中情感語(yǔ)音數(shù)量分別為：4917、707和1406。

16)DEAP數(shù)據(jù)庫(kù)

DEAP數(shù)據(jù)庫(kù)[52]錄制了32位說(shuō)話人觀看音樂(lè)視頻時(shí)的EEG信號(hào)、外圍生理信號(hào)及其中22位說(shuō)話人的正面視頻。每個(gè)說(shuō)話人都觀看了40段音樂(lè)視頻，并將自己在觀看過(guò)程中所感受到的情感在喚醒維、效價(jià)維和支配維上給出了[1， 9]的連續(xù)自我評(píng)估。

4 實(shí)驗(yàn)

下面以SAVEE、RML、eNTERFACE05模態(tài)數(shù)據(jù)庫(kù)為例，分析在不同數(shù)據(jù)庫(kù)上使用不同分類(lèi)方法所取得的最佳性能。

表6展示了2015～2019年在SAVEE數(shù)據(jù)庫(kù)上使用不同分類(lèi)方法所取得的性能。由表6可知，在SAVEE數(shù)據(jù)庫(kù)上，目前結(jié)合多模態(tài)信息的SER系統(tǒng)最優(yōu)性能可達(dá)到98.33%，這是一個(gè)非?？陀^的結(jié)果。

表6 SAVEE多模態(tài)庫(kù)上不同方法性能比較

表7展示了2012～2019年不同研究者在RML模態(tài)數(shù)據(jù)庫(kù)上的研究結(jié)果。由表7可知，目前RML數(shù)據(jù)庫(kù)上各分類(lèi)方法整體性能不是很好，2015年取得的最優(yōu)性能為83%。

表7 RML多模態(tài)庫(kù)上不同方法的性能比較

表8展示了2009～2019年部分研究者在eNTERFACE05模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果。由表8可知，文獻(xiàn)[58]取得了最優(yōu)的性能，其它各類(lèi)方法的性能均較低?？v觀表6、表7、表8，可以得出：在SAVEE數(shù)據(jù)庫(kù)上目前各分類(lèi)方法取得了最優(yōu)性能，RML次之，eNTERFACE05數(shù)據(jù)庫(kù)上性能最差。歸因于eNTERFACE05庫(kù)帶有一定噪音，而RML模態(tài)數(shù)據(jù)庫(kù)中的語(yǔ)料較為干凈，SAVEE數(shù)據(jù)庫(kù)是由專業(yè)演員錄制的，對(duì)于每種情感的表達(dá)到位，數(shù)據(jù)庫(kù)質(zhì)量較好。

表8 eNTERFACE05多模態(tài)庫(kù)上不同方法的性能比較

5 結(jié)論與展望

目前SER使用的數(shù)據(jù)庫(kù)逐漸從表演型情感語(yǔ)料庫(kù)向自然型情感語(yǔ)料庫(kù)過(guò)渡，為了進(jìn)一步提升SER的性能，研究者開(kāi)始將多模態(tài)信息引入SER，通過(guò)將面部表情、文本信息、手語(yǔ)、生理信號(hào)等多模態(tài)信息與語(yǔ)音信息相結(jié)合以進(jìn)一步提升性能。目前研究者聚焦在多模態(tài)數(shù)據(jù)庫(kù)上進(jìn)行研究，SAVEE、RML、eNTERFACE05是研究者常用的模態(tài)數(shù)據(jù)庫(kù)。作者目前立足于藏語(yǔ)SER，為了確保其性能良好，應(yīng)在干凈環(huán)境下錄制高質(zhì)量、大規(guī)模的模態(tài)藏語(yǔ)情感庫(kù)。