亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向情感變化檢測(cè)的語(yǔ)音情感數(shù)據(jù)庫(kù)

        2021-11-17 12:39:14張會(huì)云黃鶴鳴
        計(jì)算機(jī)仿真 2021年9期
        關(guān)鍵詞:模態(tài)數(shù)據(jù)庫(kù)情感

        張會(huì)云,黃鶴鳴*,李 偉

        (1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

        1 引言

        隨著語(yǔ)音識(shí)別技術(shù)的迅速發(fā)展,以計(jì)算機(jī)、手機(jī)、平板等為載體的人工智能研究日新月異。各種人機(jī)交互不再局限于識(shí)別特定說(shuō)話人語(yǔ)音中的單一音素或語(yǔ)句,如何識(shí)別語(yǔ)音中的情感已成為ASR領(lǐng)域的新興研究方向。語(yǔ)音不僅包含說(shuō)話人所要表達(dá)的語(yǔ)義信息,也包含說(shuō)話人蘊(yùn)含的情感狀態(tài),對(duì)語(yǔ)音情感的有效識(shí)別能夠提升語(yǔ)音可懂度,使各種智能設(shè)備最大限度理解用戶意圖,達(dá)到人性化水平,從而更好地為人類(lèi)服務(wù)。

        語(yǔ)音情感識(shí)別(Speech Emotion Recognition, SER)指利用計(jì)算機(jī)分析情感,提取出情感特征值,并用這些參數(shù)進(jìn)行相應(yīng)建模和識(shí)別,建立特征值與情感的映射關(guān)系,最終對(duì)情感進(jìn)行分類(lèi)。語(yǔ)音情感數(shù)據(jù)庫(kù)是進(jìn)行SER研究的基礎(chǔ)。優(yōu)質(zhì)的語(yǔ)音情感數(shù)據(jù)庫(kù)對(duì)SER系統(tǒng)性能的提升具有重要作用,所謂優(yōu)質(zhì)是指數(shù)據(jù)庫(kù)中的每條語(yǔ)句都能真實(shí)確切地表達(dá)出說(shuō)話人的情感狀態(tài)。因此,多樣化、大規(guī)模、高質(zhì)量的語(yǔ)音情感數(shù)據(jù)庫(kù)是保證SER順利進(jìn)行的第一步。

        2 相關(guān)工作

        SER系統(tǒng)包括語(yǔ)音情感數(shù)據(jù)的獲取和預(yù)處理、語(yǔ)音情感特征提取與選擇、聲學(xué)模型訓(xùn)練以及分類(lèi)決策4個(gè)階段[1]。語(yǔ)音情感數(shù)據(jù)庫(kù)相關(guān)內(nèi)容第3部分會(huì)詳細(xì)介紹,下面著重介紹語(yǔ)音情感特征提取與分類(lèi)算法。

        特征提取:SER是一項(xiàng)有挑戰(zhàn)性的任務(wù),對(duì)情感的識(shí)別依賴于語(yǔ)音情感特征分類(lèi)的有效性。語(yǔ)音情感特征可分為語(yǔ)言特征和聲學(xué)特征[2,3]。語(yǔ)言特征即語(yǔ)音所要表達(dá)的言語(yǔ)信息,聲學(xué)特征則包含了說(shuō)話人語(yǔ)氣、語(yǔ)調(diào),蘊(yùn)含感情色彩。提取關(guān)聯(lián)度高的聲學(xué)特征有助于確定說(shuō)話人情感狀態(tài)。通常以幀為單位提取聲學(xué)特征,并以全局統(tǒng)計(jì)方式作為模型輸入?yún)⑴c情感識(shí)別[3]。全局統(tǒng)計(jì)指聽(tīng)覺(jué)上獨(dú)立的語(yǔ)句或單詞,如極值、方差、均值、最小值、最大值、峰度等。常用的聲學(xué)特征包括韻律特征[4]、譜特征[5]和音質(zhì)特征[6]。為了進(jìn)一步提升識(shí)別性能,研究者也將基于人耳聽(tīng)覺(jué)特性的特征[7]、非線性動(dòng)力特征[8]引入SER,見(jiàn)表1。

        表1 基于語(yǔ)音情感的聲學(xué)特征分類(lèi)

        表1給出了語(yǔ)音情感特征分類(lèi)及其所包含的成分。通常來(lái)說(shuō),單一特征不能完全包含語(yǔ)音情感的所有有用信息,為了使SER系統(tǒng)性能達(dá)到最優(yōu),研究者通常將不同特征融合來(lái)提高系統(tǒng)性能。

        分類(lèi)算法:要對(duì)情感狀態(tài)進(jìn)行判斷,首先要建立SER模型。識(shí)別模型是SER系統(tǒng)的核心。在識(shí)別過(guò)程中,情感特征輸入到識(shí)別網(wǎng)絡(luò),計(jì)算機(jī)通過(guò)相應(yīng)算法獲取識(shí)別結(jié)果。常用SER分類(lèi)方法有:極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)[9]、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)[10]、高斯混合模型(Gaussian Mixture Model, GMM)[11]、支持向量機(jī)(Support Vertor Machine, SVM)[12,13]、隱馬爾科夫模型(Hidden Markor Model, HMM)[14]及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[15]等。

        3 語(yǔ)音情感數(shù)據(jù)庫(kù)

        人的情感是通過(guò)面部表情、身體姿態(tài)、聲音及生理信號(hào)等多種模態(tài)表現(xiàn)出來(lái)的[16]。情感判斷可基于這些模態(tài)中的一個(gè)或多個(gè)進(jìn)行,但單模態(tài)信息不全面、易受干擾,而多模態(tài)信息能夠互相印證、互相補(bǔ)充,從而為情感判斷提供更全面、準(zhǔn)確的信息,最終提高情感識(shí)別性能。隨著SER的發(fā)展,各種單模態(tài)、多模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)應(yīng)用而生,根據(jù)語(yǔ)音屬性將數(shù)據(jù)庫(kù)歸類(lèi),見(jiàn)表2。

        表2根據(jù)語(yǔ)種差異、語(yǔ)音自然度、情感獲取方式及情感描述模型將語(yǔ)音情感數(shù)據(jù)庫(kù)歸類(lèi),通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進(jìn)行研究。為了更直觀地區(qū)分兩類(lèi)情感,表3進(jìn)行了詳細(xì)總結(jié)。

        表2 語(yǔ)音情感數(shù)據(jù)庫(kù)歸類(lèi)

        表3 兩種情感描述模型的區(qū)別

        由表3可知,離散型情感[17,18]指使用形容詞標(biāo)簽將不同情感表示為相對(duì)獨(dú)立的情感類(lèi)別,多屬于表演型或引導(dǎo)型,每類(lèi)情感演繹逼真,能達(dá)到單一、易辨識(shí)的程度。維度型情感[18,19]通過(guò)喚醒維(Arousal)、效價(jià)維(Valence)、支配維(Dominance)等取值連續(xù)的維度將情感描述為一個(gè)多維信號(hào),要求標(biāo)注者將主觀情感直接量化為客觀實(shí)數(shù)值,如圖1所示。其中,Arousal是對(duì)人生理活動(dòng)/心理警覺(jué)水平的度量;效價(jià)維度量人的愉悅程度,情感從極度苦惱到極度開(kāi)心互相轉(zhuǎn)化;支配維指影響周?chē)h(huán)境或反過(guò)來(lái)受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強(qiáng)度維(Intensity)加入維度描述模型[16,20]。期望維是對(duì)說(shuō)話人情感出現(xiàn)的突然性度量,即說(shuō)話人缺乏預(yù)料和準(zhǔn)備程度的度量;強(qiáng)度維指說(shuō)話人偏離冷靜的程度[18]。

        圖1 愉悅-喚醒模型[8]

        近年來(lái),隨著SER研究的順利開(kāi)展,研究者根據(jù)情感描述模型錄制了相應(yīng)的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表4)和維度型語(yǔ)音情感數(shù)據(jù)庫(kù)(見(jiàn)表5),所列的各類(lèi)情感數(shù)據(jù)庫(kù)大都公開(kāi)或可以通過(guò)許可證授權(quán)得到。

        由表4可見(jiàn),大部分?jǐn)?shù)據(jù)庫(kù)都是通過(guò)表演方式采集。事實(shí)上采用自發(fā)語(yǔ)音情感更合理,但使用表演型情感數(shù)據(jù)庫(kù)也有一定好處,可避免數(shù)據(jù)庫(kù)包含過(guò)多無(wú)效標(biāo)簽數(shù)據(jù)。由表5可知,常用的維度型情感語(yǔ)料庫(kù)主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP及CreativeIT,對(duì)于維度型情感庫(kù)通常采用PAD量表進(jìn)行情感信息標(biāo)注。

        表4 常用的離散型語(yǔ)音情感數(shù)據(jù)庫(kù)

        表5 常用的維度型語(yǔ)音情感數(shù)據(jù)庫(kù)

        3.1 單模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)

        1)Belfast英語(yǔ)情感數(shù)據(jù)庫(kù)

        Belfast數(shù)據(jù)庫(kù)[21,22]由Queen大學(xué)錄制,包含40位說(shuō)話人使用5類(lèi)情感(生氣/anger、悲傷/sadness、高興/happiness、恐懼/fear和中性/neutral)演繹5個(gè)段落得到的語(yǔ)音。

        2)EMO-DB德語(yǔ)情感數(shù)據(jù)庫(kù)

        EMO-DB數(shù)據(jù)庫(kù)[23]是由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制的,采樣率為48kHz,壓縮后16kHz,16bit量化。錄制時(shí)從40個(gè)說(shuō)話人中選取10位對(duì)10個(gè)德語(yǔ)語(yǔ)句進(jìn)行情感演繹,包含中性/neutral、生氣/anger、恐懼/fear、高興/joy、悲傷/sadness、厭惡/disgust和困倦/boredom等7種情感,共800句語(yǔ)料,考慮到說(shuō)話人語(yǔ)音自然度,最終選取535個(gè)樣本,對(duì)應(yīng)樣本數(shù)量分別為79、127、69、71、62、46、81。部分文獻(xiàn)中,研究者從535條語(yǔ)句中選出了494條,用于SER[24]。

        3)AIBO自然語(yǔ)音情感數(shù)據(jù)庫(kù)

        AIBO數(shù)據(jù)庫(kù)[25]包含了英語(yǔ)和德語(yǔ)兩類(lèi)語(yǔ)音。德語(yǔ)數(shù)據(jù)庫(kù)[26]是由“MONT”、“OHM”兩所學(xué)校錄制的,對(duì)應(yīng)樣本數(shù)為:8258、9959。該庫(kù)通過(guò)無(wú)線耳麥采集了51名(MONT 25,OHM 26)10-13歲的兒童與索尼公司電子寵物狗Aibo進(jìn)行游戲交互時(shí)的語(yǔ)音,采樣率為48kHz,壓縮后16kHz,16bit量化。每條語(yǔ)音都有明顯的情感傾向,共48401個(gè)單詞,時(shí)長(zhǎng)9.2h,數(shù)據(jù)庫(kù)總樣本18216條,由5位語(yǔ)言學(xué)專業(yè)學(xué)生通過(guò)投票方式標(biāo)注情感,當(dāng)3個(gè)及以上的標(biāo)注者判定為同一種情感時(shí)投票通過(guò)。該庫(kù)涵蓋高興/joyful、強(qiáng)調(diào)/emphatic、中性/neutral、溺愛(ài)/motherese、無(wú)聊/bored、驚訝/surprised、無(wú)助/helpless、易怒/touchy、憤怒/angry、譴責(zé)/reprimanding和含糊/rest等11類(lèi)情感。目前關(guān)于情感標(biāo)簽仍無(wú)定論,最常用的標(biāo)簽方法有2種:5類(lèi)情感,2類(lèi)情感。5類(lèi)情感包括:Anger(記作A,包含angry, touchy, reprimanding)、Emphatic(記作E)、Neutral(記作N)、Positive(記作P,包含motherese, joyful)、Rest(記作R),對(duì)應(yīng)樣本數(shù)分別為1492、3601、10967、889、1267;對(duì)于2類(lèi)問(wèn)題,類(lèi)別為Negative(記作NEG,包含angry, touchy, reprimanding, emphatic)和Idle(記作IDL),樣本數(shù)分別為5823和12393。該庫(kù)33%的單詞被INTERSPEECH 2009進(jìn)行SER競(jìng)賽所用[27]。

        英文庫(kù)由30個(gè)兒童(4~14歲)錄制而成,語(yǔ)音總共8.5個(gè)小時(shí)。

        4)CASIA中文語(yǔ)音情感數(shù)據(jù)庫(kù)

        CASIA數(shù)據(jù)庫(kù)[28]是由中科院自動(dòng)化研究所在干凈環(huán)境下錄制的,包含4位專業(yè)發(fā)音人在6類(lèi)情感(高興/happiness、害怕/fear、悲哀/sadness、生氣/anger、驚嚇/scare和中性/neural)下演繹的9600條情感語(yǔ)音。采樣率為16kHz,16bit量化。目前公開(kāi)的CASIA庫(kù)中,包含1200條語(yǔ)音,每類(lèi)情感各200條語(yǔ)音。

        5)丹麥DES情感語(yǔ)料庫(kù)

        DES數(shù)據(jù)庫(kù)[29]包含兩個(gè)單詞(是,否),9句話和2個(gè)短句。情感類(lèi)型有:高興/happiness、傷心/sadness、中性/neutral、生氣/anger和驚奇/surprise。通過(guò)20個(gè)年齡在18~58歲的本地人鑒定,識(shí)別率可達(dá)67%。

        6)老人語(yǔ)音情感庫(kù)EESDB

        EESDB數(shù)據(jù)庫(kù)[30]語(yǔ)音數(shù)據(jù)來(lái)自《老人的故事》。該庫(kù)錄制了11位說(shuō)話人(6男5女)演繹的7類(lèi)情感(高興/happy、傷心/sad、中性/neutral、生氣/angry、害怕/fear、驚奇/surprise、厭惡/digust),共992條語(yǔ)音,采樣率44kHz,16bit量化。選取8位評(píng)估者對(duì)語(yǔ)音情感進(jìn)行判定,若75%的評(píng)估者同時(shí)判定為相同情感則對(duì)其保留,最終保留了427條情感語(yǔ)音。

        7)北京航空航天大學(xué)情感語(yǔ)料庫(kù)

        北京航空航天大學(xué)情感語(yǔ)料庫(kù)是一個(gè)中文數(shù)據(jù)庫(kù)[31],錄制了7位說(shuō)話人(4男3女)在20個(gè)文本下演繹的5類(lèi)情感(憤怒/anger、高興/happiness、悲傷/sadness、厭惡/disgust、驚訝/surprise),每個(gè)文本在相同情感下重復(fù)3次,經(jīng)評(píng)估后,最終保留1140條情感語(yǔ)音。

        8)Semaine數(shù)據(jù)庫(kù)

        Semaine[32]是一個(gè)面向AI與人機(jī)交互的數(shù)據(jù)庫(kù),可免費(fèi)用于科學(xué)研究。該庫(kù)是在專業(yè)錄音室環(huán)境下進(jìn)行人機(jī)交互錄制的,錄制時(shí),20位說(shuō)話人被要求與4位個(gè)性不同的(溫和而智慧的/Prudence、快樂(lè)而外向的/Poppy、悲傷而抑郁的/Obadiah和怒氣沖沖的/Spike)虛擬人物(由工作人員扮演)進(jìn)行語(yǔ)音對(duì)話,該虛擬人物不僅能理解說(shuō)話人表達(dá)的語(yǔ)義信息,與用戶也有情感交流,錄音長(zhǎng)達(dá)7小時(shí)。由5個(gè)高幀頻、高分辨率攝像機(jī)和4個(gè)麥克風(fēng)共同釆集數(shù)據(jù),采樣率為48kHz,24bit量化。最后,在valence、activation、power、intensity和expectation等5個(gè)維度上進(jìn)行標(biāo)注。

        9)TYUT2.0中文情感語(yǔ)音數(shù)據(jù)庫(kù)

        TYUT2.0數(shù)據(jù)庫(kù)[33]是通過(guò)截取廣播劇的方式獲得的一種摘引型情感數(shù)據(jù)庫(kù),使用PAD(Pleasure-Arousal-Domaniance)情感量表對(duì)語(yǔ)音情感進(jìn)行維度標(biāo)注。在標(biāo)注試驗(yàn)中,招募100名在校學(xué)生(44男56女)對(duì)3類(lèi)情感(高興/pleasure、悲傷/sadness、憤怒/anger)共161個(gè)語(yǔ)音樣本按照范圍為1~5的PAD量表進(jìn)行維度標(biāo)注,得到161×100維的數(shù)據(jù)樣本,每個(gè)語(yǔ)音樣本維度值取所有標(biāo)注值的平均。

        10)SUSAS英語(yǔ)情感數(shù)據(jù)庫(kù)

        SUSAS數(shù)據(jù)庫(kù)[34,35]錄制了7位說(shuō)話人(4男3女)的3593條情感語(yǔ)音,主要用于分析壓力級(jí)別,壓力類(lèi)別包括高壓/high stress(hist)、中壓/medium stress(meds)、中性/neutral(neut)、強(qiáng)壓/screaming(scre),對(duì)應(yīng)類(lèi)別樣本數(shù)分別為1202、1276、701和414。在Arousal維上neut為正,其它為負(fù);在Valence上neut、scre為正,其它為負(fù)。

        3.2 多模態(tài)語(yǔ)音情感數(shù)據(jù)庫(kù)

        1)IEMOCAP英語(yǔ)情感數(shù)據(jù)庫(kù)

        IEMOCAP數(shù)據(jù)庫(kù)[36]是由美國(guó)南加州大學(xué)錄制的,由10名演員(5男5女)在有劇本或即興場(chǎng)景下誘發(fā)特定情感,包含音頻、文本、面部表情以及視頻。整個(gè)數(shù)據(jù)集劃分為5部分,每部分均由1男1女表演組成。離散型和維度型情感標(biāo)注都被應(yīng)用于該數(shù)據(jù)庫(kù)。離散型情感標(biāo)簽分為中性/neural、高興/happiness、生氣/anger和悲傷/sadness等,每類(lèi)對(duì)應(yīng)樣本數(shù)量為:1708、1636、1103和1084,總計(jì)5531句(其中即興表演包含2280句),時(shí)長(zhǎng)約12小時(shí)。此外,IEMOCAP數(shù)據(jù)庫(kù)也采用了valence、activation和dominance維度空間模型進(jìn)行標(biāo)注,維度幅值范圍為[1, 5]。

        2)RECOLA數(shù)據(jù)庫(kù)

        RECOLA數(shù)據(jù)庫(kù)[37]錄制了46位說(shuō)話人(兩人1組被分成23組,每組通過(guò)遠(yuǎn)程視頻會(huì)議討論某個(gè)災(zāi)難場(chǎng)景下逃生方案)的語(yǔ)音情感數(shù)據(jù)。數(shù)據(jù)中包含所有說(shuō)話人在討論過(guò)程中的面部視頻和音頻以及其中35個(gè)說(shuō)話人的ECG、EDA數(shù)據(jù)。標(biāo)注人員按照視頻幀率逐幀給出了說(shuō)話人前5分鐘討論過(guò)程中情感狀態(tài)在valence和Arousal的值。

        3)eNTERFACE’05英語(yǔ)情感數(shù)據(jù)庫(kù)

        eNTERFACE’05數(shù)據(jù)庫(kù)[38]是基于面部表情和語(yǔ)音的雙模態(tài)情感數(shù)據(jù)庫(kù),錄制條件為辦公室環(huán)境,帶有一定回聲,錄制文本來(lái)自于故事,所有錄制人員通過(guò)聽(tīng)取6個(gè)短片小故事,得到一種情感,通過(guò)兩名專家最終確定語(yǔ)音是否符合要求。數(shù)據(jù)庫(kù)采集了來(lái)自14個(gè)國(guó)家42位說(shuō)話人(34男8女)的6類(lèi)基本情感(生氣/anger、厭惡/disgust、害怕/fear、開(kāi)心/happy、傷心/sadness、驚訝/surprise),每類(lèi)情感對(duì)應(yīng)樣本數(shù)量為:200、189、187、205、195和190。樣本采用分辨率為80萬(wàn)像素的微型DV數(shù)字?jǐn)z像機(jī)以25幀/秒的速度攝制,利用專用的高質(zhì)量麥克風(fēng)以16bit格式記錄48kHz的未壓縮立體音頻信號(hào),每個(gè)圖片幀大小為720*576。

        4)RML數(shù)據(jù)庫(kù)

        RML數(shù)據(jù)庫(kù)[39]是基于面部表情和語(yǔ)音的雙模態(tài)公開(kāi)情感數(shù)據(jù)庫(kù),由加拿大Ryerson多媒體實(shí)驗(yàn)室錄制,錄制環(huán)境較為明亮,無(wú)嘈雜的背景音。采樣率為44kHz,16bit量化。視頻樣本包含8位說(shuō)話人表達(dá)的6類(lèi)基本情感(生氣/anger、厭惡/disgust、害怕/fear、開(kāi)心/happy、傷心/sadness、驚訝/surprise),共720個(gè)語(yǔ)音和人臉情感。視頻幀率為30幀/s,尺寸為720*480。每個(gè)視頻持續(xù)時(shí)間為3~6s。

        5)AFEW6.0數(shù)據(jù)庫(kù)

        AFEW6.0[40]并非是在實(shí)驗(yàn)室環(huán)境下建立的傳統(tǒng)數(shù)據(jù)庫(kù),它是Emotion Recognition in the Wild(EmotiW)2016 challenge比賽提供的官方數(shù)據(jù)庫(kù),庫(kù)中所有樣本均為電影或電視劇剪輯片段且混有復(fù)雜的背景信息。該庫(kù)中的視頻樣本包含7類(lèi)情感,被劃分為訓(xùn)練集(773個(gè))、驗(yàn)證集(383個(gè))和測(cè)試集(593個(gè)),訓(xùn)練集和驗(yàn)證集公開(kāi),測(cè)試集用于比賽評(píng)定,非公開(kāi)。

        6)GEMEP數(shù)據(jù)庫(kù)

        GEMEP數(shù)據(jù)庫(kù)[41]包含語(yǔ)音樣本集及其對(duì)應(yīng)的視頻樣本集GEMEP-FERA[42],應(yīng)用于INTERSPEECH 2013 Challenge[43]。數(shù)據(jù)庫(kù)包含10位說(shuō)話人(5男5女)的1260個(gè)樣本,共18個(gè)情感類(lèi)別(羨慕/admiration、愉悅/amusement、焦慮/anxiety、冷漠/cold anger、蔑視/contempt、絕望/despair、厭惡/disgust、興高采烈/elation、暴怒/hot anger、興趣/interest、恐慌/panic、恐懼/fear、樂(lè)意/easure、驕傲/pride、寬慰/relief、悲傷/sadness、羞愧/shame、驚訝/surprise、溫柔/tenderness)。常用的情感有12類(lèi),平均每類(lèi)約90個(gè)樣本,共1080個(gè)樣本。

        7)ABC德語(yǔ)情感數(shù)據(jù)庫(kù)

        ABC雙模態(tài)數(shù)據(jù)庫(kù)[44]模擬了不同情境下公共交通中說(shuō)話人的情感,是一個(gè)誘發(fā)數(shù)據(jù)庫(kù),含8位說(shuō)話人(4男4女,25~48歲)的430條視頻情感語(yǔ)音,時(shí)長(zhǎng)11.5個(gè)小時(shí),由3名專家對(duì)數(shù)據(jù)進(jìn)行剪切,標(biāo)定情感。其情感類(lèi)別為:挑釁/aggressive、愉快/cheerful、陶醉/intoxicated、緊張/nervous、中性/neutral、疲倦/tired),對(duì)應(yīng)樣本數(shù)為95、105、33、93、79、25。

        8)ACCorpus系列中文情感數(shù)據(jù)庫(kù)

        ACCorpus數(shù)據(jù)庫(kù)[18]是由清華大學(xué)和中科院心理研究所合作錄制,錄音人數(shù)較多,是一個(gè)很全面、很系統(tǒng)、有代表性的數(shù)據(jù)庫(kù),采樣率16kHz,16bit量化。包含5個(gè)子庫(kù),分別是:ACCorpus_MM多模態(tài)、多通道情感數(shù)據(jù)庫(kù)、ACCorpus_SA漢語(yǔ)普通話情感分析數(shù)據(jù)庫(kù)、ACCorpus_FV人臉表情視頻數(shù)據(jù)庫(kù)、ACCorpus_FI人臉表情圖像數(shù)據(jù)庫(kù)、ACCorpus_SR情感語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。其中,ACCorpus_SR庫(kù)錄制了50位(25男25女)說(shuō)話人在5類(lèi)情感狀態(tài)(中性/neural、高興/happiness、生氣/anger、恐懼/fear和悲傷/sadness)下的語(yǔ)音。

        9)AVEC 2012數(shù)據(jù)庫(kù)

        AVEC 2012[45]是包含語(yǔ)音和視頻的多模態(tài)情感數(shù)據(jù)庫(kù),來(lái)源于Semaine數(shù)據(jù)庫(kù)中Solid-SAL的24條情感記錄文件。曾用于2012年音/視頻情感識(shí)別挑戰(zhàn)大賽,被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)時(shí)長(zhǎng)在7小時(shí)左右,標(biāo)注工作由3~8個(gè)評(píng)估者借助標(biāo)注工具FEELTRACE在Valence、Activation、Power和Expectation四個(gè)情感維度上標(biāo)注。

        10)VAM德語(yǔ)情感數(shù)據(jù)庫(kù)

        VAM數(shù)據(jù)庫(kù)[46]是對(duì)德語(yǔ)電視談話節(jié)目“Vera am Mittag”進(jìn)行現(xiàn)場(chǎng)錄制而成的,包括表情庫(kù)、視頻庫(kù)、語(yǔ)音庫(kù)3部分。語(yǔ)音庫(kù)包含47位嘉賓947句語(yǔ)音,采樣率為16kHz,16bit量化。在valence、activation和dominance維度上標(biāo)注,標(biāo)注值在[-1, 1]。

        11)AVIC英語(yǔ)情感數(shù)據(jù)庫(kù)

        AVIC數(shù)據(jù)庫(kù)[47]是一種雙模態(tài)情感庫(kù),錄制了21位(男11女10)產(chǎn)品推銷(xiāo)員使用英語(yǔ)進(jìn)行商業(yè)推廣的語(yǔ)音和面部表情。樣本情感類(lèi)別為:無(wú)聊/boredom、中性/neutral、高興/joyful,每類(lèi)情感對(duì)應(yīng)樣本數(shù)量為553、2279、170,共3002個(gè)樣本。

        12)MOUD西班牙語(yǔ)情感數(shù)據(jù)庫(kù)

        MOUD模態(tài)數(shù)據(jù)庫(kù)[48]采集了80位說(shuō)話人(65男15女)的文本、語(yǔ)音和視頻信息,共498個(gè)樣本。其中樣本情感標(biāo)注分為3類(lèi):積極/positive、中立/neutral和消極/negative,每類(lèi)樣本對(duì)應(yīng)數(shù)量為:182、85、231。

        13)MOSI英語(yǔ)數(shù)據(jù)庫(kù)

        MOSI是2016年Zadeh團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的較大的一個(gè)多模態(tài)情感數(shù)據(jù)庫(kù)[49],共采集了89位說(shuō)話人(48男41女)的文本、語(yǔ)音和視頻3個(gè)模態(tài)的信息,共2199個(gè)樣本,說(shuō)話人年齡主要集中在20~30歲。

        14)SAVEE語(yǔ)音情感數(shù)據(jù)庫(kù)

        SAVEE模態(tài)數(shù)據(jù)庫(kù)[50]是由4名演員在7種情感狀態(tài)(生氣/anger、厭惡/disgust、害怕/fear、高興/happiness、中性/neutral、傷心/sadness以及驚訝/surprise)下演繹得到的表演型數(shù)據(jù)庫(kù),共480條情感,語(yǔ)音情感數(shù)量分布相對(duì)平衡,除中性(120條)外,其余6類(lèi)情感均有60條。

        15)CHEVAD中文自然情感數(shù)據(jù)庫(kù)

        CHEVAD數(shù)據(jù)庫(kù)[51]是由中科院自動(dòng)化研究所錄制的,也是中科院自動(dòng)化所舉辦的2017多模態(tài)情感識(shí)別競(jìng)賽的官方數(shù)據(jù)集,數(shù)據(jù)來(lái)自中文電影、電視劇及脫口秀節(jié)目,時(shí)長(zhǎng)140分鐘,說(shuō)話人數(shù)達(dá)到238人,年齡范圍從兒童到老人。由4名中國(guó)人標(biāo)注數(shù)據(jù),總共26個(gè)非原型情感狀態(tài),包含了常用的6類(lèi)情感狀態(tài)(憤怒/anger、恐懼/fear、高興/happy、中性/neutral、悲傷/sad和驚訝/surprise),訓(xùn)練集、驗(yàn)證集和測(cè)試集中情感語(yǔ)音數(shù)量分別為:4917、707和1406。

        16)DEAP數(shù)據(jù)庫(kù)

        DEAP數(shù)據(jù)庫(kù)[52]錄制了32位說(shuō)話人觀看音樂(lè)視頻時(shí)的EEG信號(hào)、外圍生理信號(hào)及其中22位說(shuō)話人的正面視頻。每個(gè)說(shuō)話人都觀看了40段音樂(lè)視頻,并將自己在觀看過(guò)程中所感受到的情感在喚醒維、效價(jià)維和支配維上給出了[1, 9]的連續(xù)自我評(píng)估。

        4 實(shí)驗(yàn)

        下面以SAVEE、RML、eNTERFACE05模態(tài)數(shù)據(jù)庫(kù)為例,分析在不同數(shù)據(jù)庫(kù)上使用不同分類(lèi)方法所取得的最佳性能。

        表6展示了2015~2019年在SAVEE數(shù)據(jù)庫(kù)上使用不同分類(lèi)方法所取得的性能。由表6可知,在SAVEE數(shù)據(jù)庫(kù)上,目前結(jié)合多模態(tài)信息的SER系統(tǒng)最優(yōu)性能可達(dá)到98.33%,這是一個(gè)非??陀^的結(jié)果。

        表6 SAVEE多模態(tài)庫(kù)上不同方法性能比較

        表7展示了2012~2019年不同研究者在RML模態(tài)數(shù)據(jù)庫(kù)上的研究結(jié)果。由表7可知,目前RML數(shù)據(jù)庫(kù)上各分類(lèi)方法整體性能不是很好,2015年取得的最優(yōu)性能為83%。

        表7 RML多模態(tài)庫(kù)上不同方法的性能比較

        表8展示了2009~2019年部分研究者在eNTERFACE05模態(tài)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果。由表8可知,文獻(xiàn)[58]取得了最優(yōu)的性能,其它各類(lèi)方法的性能均較低??v觀表6、表7、表8,可以得出:在SAVEE數(shù)據(jù)庫(kù)上目前各分類(lèi)方法取得了最優(yōu)性能,RML次之,eNTERFACE05數(shù)據(jù)庫(kù)上性能最差。歸因于eNTERFACE05庫(kù)帶有一定噪音,而RML模態(tài)數(shù)據(jù)庫(kù)中的語(yǔ)料較為干凈,SAVEE數(shù)據(jù)庫(kù)是由專業(yè)演員錄制的,對(duì)于每種情感的表達(dá)到位,數(shù)據(jù)庫(kù)質(zhì)量較好。

        表8 eNTERFACE05多模態(tài)庫(kù)上不同方法的性能比較

        5 結(jié)論與展望

        目前SER使用的數(shù)據(jù)庫(kù)逐漸從表演型情感語(yǔ)料庫(kù)向自然型情感語(yǔ)料庫(kù)過(guò)渡,為了進(jìn)一步提升SER的性能,研究者開(kāi)始將多模態(tài)信息引入SER,通過(guò)將面部表情、文本信息、手語(yǔ)、生理信號(hào)等多模態(tài)信息與語(yǔ)音信息相結(jié)合以進(jìn)一步提升性能。目前研究者聚焦在多模態(tài)數(shù)據(jù)庫(kù)上進(jìn)行研究,SAVEE、RML、eNTERFACE05是研究者常用的模態(tài)數(shù)據(jù)庫(kù)。作者目前立足于藏語(yǔ)SER,為了確保其性能良好,應(yīng)在干凈環(huán)境下錄制高質(zhì)量、大規(guī)模的模態(tài)藏語(yǔ)情感庫(kù)。

        猜你喜歡
        模態(tài)數(shù)據(jù)庫(kù)情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        久久精品国产亚洲av热九| 国产在线精品一区二区在线看| 国产999精品久久久久久| 亚洲AV永久天堂在线观看 | 乱人伦中文字幕成人网站在线| 精品国产三级a在线观看| 中文字幕av无码一区二区三区电影 | 人妻熟妇乱又伦精品hd| 好日子在线观看视频大全免费动漫| 亚洲天堂资源网| 亚洲一区二区在线视频,| 国产av精品一区二区三区久久| 国产成人无码一区二区三区| 国产午夜精品理论片| 国内无遮码无码| 男女视频在线观看一区二区| 综合亚洲伊人午夜网| 不卡高清av手机在线观看| 国内少妇偷人精品视频免费| 少妇高潮惨叫久久久久电影| 日韩麻豆视频在线观看| 精品一区二区三区四区国产| а天堂8中文最新版在线官网 | 亚洲区在线播放| 精品女同av一区二区三区| 国产亚洲av综合人人澡精品| 激情综合五月婷婷久久| 免费观看羞羞视频网站| 中文字幕一区二区三区人妻少妇| 在线精品无码一区二区三区| 青青草视频在线观看视频免费| 国产特级毛片aaaaaa高潮流水| 影视先锋av资源噜噜| 极品美女高潮喷白浆视频| 国产自拍伦理在线观看| 狠狠躁夜夜躁人人爽超碰97香蕉| 人人妻人人澡人人爽欧美二区| 免费在线观看一区二区| 亚洲自偷自拍另类第一页| 中文字幕乱码日本亚洲一区二区 | 亚洲动漫成人一区二区|